輝達發表AI聲音機器Fugatto 為何被譽為「聲音的瑞士刀」?

編譯/高晟鈞

曾經,電吉他與效果器賦予了搖滾樂生命,隨後取樣器的誕生,象徵了嘻哈時代的崛起。如今,音樂不再只是樂器的專利,而是與科技相輔相成。Nvidia推出的Fugatto模型可謂是集大成者,能用模型訓練與推理改變聲音之間的任何組合,包括合成從未存在過的聲音,有望成為下一個劃時代的「科技樂器」。

輝達發表全新人工智慧AI聲音機器Fugatto模型。
輝達發表全新人工智慧AI聲音機器Fugatto模型。(圖/取自YouTube@NVIDIADeveloper

聲音的瑞士刀Fugatto

近日,輝達發布了全新人工智慧研究成果Fugatto(Foundational Generative Audio Transformer Opus 1)是一種結合語音建模、音訊編碼與解析工程的模型。輝達聲稱,只要輸入文字,Fugatto就能控制音訊輸出,將任何文字描寫轉化為音訊,客製化任何你想要的聲音。雖然有許多AI模型能夠創作歌曲或修改聲音,卻沒有一個模型有如此高的自由度與靈活性,Fugatto也因此獲得了「聲音瑞士刀」的美譽。

更多新聞: 挑戰Meta與Google!輝達全新AI模型 Fugatto能用文字生成音頻

Fugatto的完整版本擁有超過25億個參數、數百萬個訓練的音訊樣本,在一組包括32個NVIDIA H100 Tensor Core GPU的NVIDIA DGX 系統上進行訓練。Fugatto更是涵蓋了由來自世界各地的專業人士,包括印度、中國、韓國、美國等等,強化了Fugatto對於多語言能力與口音的能力。

劃時代的「科技樂器」

首先,Fugatto具備基礎生成式 AI 模型,能支援眾多音訊產生和轉換任務,展示了新興屬性(由各種經過訓練的能力互動產生的能力)以及組合自由格式指令的能力。Fugatto中的「Composable ART」系統,能夠透過「條件設定」,對文字指令進行極其細微的控制,包括重音、口音、語氣、情緒表達的程度,甚至讓音效隨時間產生區域性變化。例如,暴風雨穿過雷聲逐漸增強某區域的聲音,然後消失至某處。

當我們把收錄的聲音,經由調校音準、音量並放到音軌中,這個過程被稱為採樣(取樣)。因此,大多數我們聽到的音樂、音效大多來自真實世界中的某些聲音,而大多數AI模型只能重新創建他們所接觸過的訓練數據。然而,Fugatto卻允許用戶創建以前從未見過的音景,例如雷暴逐漸進入黎明,伴隨著鳥兒的歌聲。

我們將從取樣器與MIDI製成的音樂稱為電子音樂,也是近十幾年來最為風行的音樂風格之一。Fugatto的問世很可能象徵著音樂真正百花齊放時代到來,未來的音樂編曲、風格很可能將被重新定義。

資料來源:Arstechnica

探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!

瀏覽 103 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button