挑戰Meta與Google!輝達全新AI模型 Fugatto能用文字生成音頻

編譯/黃竣凱

半導體巨頭輝達正式發布了一款名為「Foundational Generative Audio Transformer Opus 1」,簡稱Fugatto的實驗性生成式人工智慧(AI)模型。該模型能根據用戶提供的文字提示,生成並編輯音訊內容。輝達表示,這項突破性的技術由來自全球的AI研究人員共同開發,特別強化了多口音與多語言的處理能力。

輝達全新AI模型 Fugatto能用文字生成音頻。
輝達全新AI模型 Fugatto能用文字生成音頻。(示意圖/取自YouTube@NVIDIADeveloper

模擬人類音效凸顯自然語生成能力

據報導,Fugatto 的目標是創建一個能夠理解並生成類似人類聲音的 AI 模型。輝達應用音訊研究經理暨 Fugatto 的主要開發者 Rafael Valle 表示,團隊的目標是打造一款能像人類一樣理解與生成聲音的 AI 模型。 Fugatto 可應用於多種場景,例如音樂製作人快速生成歌曲原型,或是幫助使用者以他們喜愛的聲音製作語言學習資源。

更多新聞:輝達資料中心收入破300億美元 AI霸主地位持續鞏固

廣泛應用於音樂製作與語言學習

Fugatto 的潛力不僅限於聲音生成,還能幫助音樂製作人快速創建歌曲原型,甚至可用於語言學習,讓使用者以自己喜愛的聲音製作學習資料,使Fugatto 成為音樂與語言學習領域的有力工具,開創了音訊生成的新前景。

拓展至遊戲產業 提升沉浸感

除了音樂和語言學習,Fugatto 也有望在遊戲產業中大放異彩。該 AI 可以用來創建根據玩家選擇而變化的遊戲內預錄音效,進一步提高遊戲的沉浸感。此外,經過一些微調後,Fugatto 還能夠執行超出初始訓練範疇的任務,例如生成帶有特定口音的生氣語音,或模擬雷陣雨中的鳥鳴聲等。

動態模擬聲音 演化過程精細呈現

Fugatto 的另一大特色是其能夠模擬隨時間變化的聲音,例如模擬暴風雨逐漸過渡的聲音,使 Fugatto 在音效設計和視覺藝術等領域,擁有更強的應用潛力。不過,輝達目前尚未透露是否會將 Fugatto 向公眾開放,讓更多用戶受益於這項技術。

參考資料:News Bytes App

※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!

瀏覽 387 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button