以文字控制音訊輸出！輝達新AI模型Fugatto因應地區套用不同口音

2024-11-27

記者 / 孟圓琦

「我們希望創造一個能夠像人類一樣理解和生成聲音的模型。」輝達(NVIDIA)日前甫公開一項新型人工智慧模型Fugatto (全名為 Foundational Generative Audio Transformer Opus 1 )，超脫過往之於音訊生成的想像，只要只用文字敘述後，可生成或轉換音樂、語音等各式組合。作為首個支援多種音訊產生與轉換任務的基礎生成式 AI 模型，NVIDIA 應用音訊研究部門經理 Rafael Valle表示，Fugatto 是邁向未來的第一步，未來，音訊合成與轉換的無監督多任務學習將從資料與模型規模中浮現。

延伸閱讀：開源平台外洩OpenAI Sora視訊生成器遭批評「雙重標準」

音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想，嘗試各種風格、聲音和樂器。他們也能夠加入效果並提升現有曲目的整體音訊品質。曾多次拿下白金唱片的製作人兼詞曲創作者 Ido Zmishlany 表示：「音樂史也是一部科技史！」 Fugatto 的運用，包含廣告公司可快速針對多個地區或情境的現有廣告內容，對配音套用不同的口音和情感，或是電玩遊戲開發人員可以使用這個模型來修改遊戲裡預先錄好的資產，以配合玩家在玩遊戲時不斷變化的動作。甚至，讓語言學習工具變得更為個人化─比如線上課程將以任何一個家人或朋友的聲音所講授！

Fugatto 的新奇之處，還有模型在推論的時候，會使用一種稱為 ComposableART 的技術，將只在訓練期間單獨出現的指令組合起來。舉例來說，提示的組合可以要求用法國口音說出帶有傷感情懷的文字。此模型在指令之間進行插值的能力，讓使用者可以極細微地控制文字指令，在這個例子中即是可以控制口音的輕重或悲傷的程度。設計該模型這些方面的 AI 研究員 Rohan Badlani 表示：「我想讓使用者以主觀或藝術的方式結合屬性，選擇他們對每個屬性的重視程度。」

作為一個基礎的生成式轉換器模型，Fugatto 完整版本使用 25 億個參數，在搭載 32 個 NVIDIA H100 Tensor 核心 GPU 的 NVIDIA DGX 系統上進行訓練。而 Fugatto 的開發團隊由來自印度、巴西、中國、約旦和韓國等全球各地的不同人士所組成，也造就了 Fugatto 生成多種口音及語言的能力變得更加強大。

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 771 次

覺得不錯的話就分享出去吧！

標籤

2024-11-27

以文字控制音訊輸出！輝達新AI模型Fugatto因應地區套用不同口音

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

川普「對等關稅」實施倒數 郭智輝：因應辦法會讓大家知道

成熟製程聯盟成形？日媒曝：聯電與格羅方德傳合併 官方回應「不予評論」

「請對我們狠一點！」英特爾執行長陳立武想拆掉舊文化 重新贏回工程師

美國關稅戰！台經院示警：復甦恐受阻 「這產業」成海嘯第一排

崇越合作日本奈米壓印設備商SCIVAX！2025 Touch Taiwan亮相最新應用

傳蘋果將推出AI醫生服務 最快將與iOS 19.4一起發布

發佈留言 取消回覆

川普「對等關稅」實施倒數郭智輝：因應辦法會讓大家知道

成熟製程聯盟成形？日媒曝：聯電與格羅方德傳合併官方回應「不予評論」

「請對我們狠一點！」英特爾執行長陳立武想拆掉舊文化重新贏回工程師

美國關稅戰！台經院示警：復甦恐受阻「這產業」成海嘯第一排

傳蘋果將推出AI醫生服務最快將與iOS 19.4一起發布

發佈留言取消回覆