以文字控制音訊輸出!輝達新AI模型Fugatto因應地區套用不同口音
記者 / 孟圓琦
「我們希望創造一個能夠像人類一樣理解和生成聲音的模型。」輝達(NVIDIA)日前甫公開一項新型人工智慧模型Fugatto (全名為 Foundational Generative Audio Transformer Opus 1 ),超脫過往之於音訊生成的想像,只要只用文字敘述後,可生成或轉換音樂、語音等各式組合。作為首個支援多種音訊產生與轉換任務的基礎生成式 AI 模型,NVIDIA 應用音訊研究部門經理 Rafael Valle表示,Fugatto 是邁向未來的第一步,未來,音訊合成與轉換的無監督多任務學習將從資料與模型規模中浮現。
延伸閱讀:開源平台外洩OpenAI Sora視訊生成器 遭批評「雙重標準」
音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想,嘗試各種風格、聲音和樂器。他們也能夠加入效果並提升現有曲目的整體音訊品質。曾多次拿下白金唱片的製作人兼詞曲創作者 Ido Zmishlany 表示:「音樂史也是一部科技史!」 Fugatto 的運用,包含廣告公司可快速針對多個地區或情境的現有廣告內容,對配音套用不同的口音和情感,或是電玩遊戲開發人員可以使用這個模型來修改遊戲裡預先錄好的資產,以配合玩家在玩遊戲時不斷變化的動作。甚至,讓語言學習工具變得更為個人化─比如線上課程將以任何一個家人或朋友的聲音所講授!
Fugatto 的新奇之處,還有模型在推論的時候,會使用一種稱為 ComposableART 的技術,將只在訓練期間單獨出現的指令組合起來。舉例來說,提示的組合可以要求用法國口音說出帶有傷感情懷的文字。此模型在指令之間進行插值的能力,讓使用者可以極細微地控制文字指令,在這個例子中即是可以控制口音的輕重或悲傷的程度。設計該模型這些方面的 AI 研究員 Rohan Badlani 表示:「我想讓使用者以主觀或藝術的方式結合屬性,選擇他們對每個屬性的重視程度。」
作為一個基礎的生成式轉換器模型,Fugatto 完整版本使用 25 億個參數,在搭載 32 個 NVIDIA H100 Tensor 核心 GPU 的 NVIDIA DGX 系統上進行訓練。而 Fugatto 的開發團隊由來自印度、巴西、中國、約旦和韓國等全球各地的不同人士所組成,也造就了 Fugatto 生成多種口音及語言的能力變得更加強大。
※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!
瀏覽 94 次