輝達發表AI聲音機器Fugatto 為何被譽為「聲音的瑞士刀」？

2024-12-01

編譯／高晟鈞

曾經，電吉他與效果器賦予了搖滾樂生命，隨後取樣器的誕生，象徵了嘻哈時代的崛起。如今，音樂不再只是樂器的專利，而是與科技相輔相成。Nvidia推出的Fugatto模型可謂是集大成者，能用模型訓練與推理改變聲音之間的任何組合，包括合成從未存在過的聲音，有望成為下一個劃時代的「科技樂器」。

輝達發表全新人工智慧AI聲音機器Fugatto模型。（圖／取自YouTube@NVIDIADeveloper）

聲音的瑞士刀Fugatto

近日，輝達發布了全新人工智慧研究成果Fugatto（Foundational Generative Audio Transformer Opus 1）是一種結合語音建模、音訊編碼與解析工程的模型。輝達聲稱，只要輸入文字，Fugatto就能控制音訊輸出，將任何文字描寫轉化為音訊，客製化任何你想要的聲音。雖然有許多AI模型能夠創作歌曲或修改聲音，卻沒有一個模型有如此高的自由度與靈活性，Fugatto也因此獲得了「聲音瑞士刀」的美譽。

Fugatto的完整版本擁有超過25億個參數、數百萬個訓練的音訊樣本，在一組包括32個NVIDIA H100 Tensor Core GPU的NVIDIA DGX 系統上進行訓練。Fugatto更是涵蓋了由來自世界各地的專業人士，包括印度、中國、韓國、美國等等，強化了Fugatto對於多語言能力與口音的能力。

劃時代的「科技樂器」

首先，Fugatto具備基礎生成式 AI 模型，能支援眾多音訊產生和轉換任務，展示了新興屬性（由各種經過訓練的能力互動產生的能力）以及組合自由格式指令的能力。Fugatto中的「Composable ART」系統，能夠透過「條件設定」，對文字指令進行極其細微的控制，包括重音、口音、語氣、情緒表達的程度，甚至讓音效隨時間產生區域性變化。例如，暴風雨穿過雷聲逐漸增強某區域的聲音，然後消失至某處。

當我們把收錄的聲音，經由調校音準、音量並放到音軌中，這個過程被稱為採樣（取樣）。因此，大多數我們聽到的音樂、音效大多來自真實世界中的某些聲音，而大多數AI模型只能重新創建他們所接觸過的訓練數據。然而，Fugatto卻允許用戶創建以前從未見過的音景，例如雷暴逐漸進入黎明，伴隨著鳥兒的歌聲。

我們將從取樣器與MIDI製成的音樂稱為電子音樂，也是近十幾年來最為風行的音樂風格之一。Fugatto的問世很可能象徵著音樂真正百花齊放時代到來，未來的音樂編曲、風格很可能將被重新定義。

資料來源:Arstechnica

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 828 次

覺得不錯的話就分享出去吧！

標籤

2024-12-01

輝達發表AI聲音機器Fugatto 為何被譽為「聲音的瑞士刀」？

聲音的瑞士刀Fugatto

劃時代的「科技樂器」

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

聲音的瑞士刀Fugatto

劃時代的「科技樂器」

推薦工作

延伸閱讀

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維 鼓勵學生保有「好奇心」

聯電新加坡新廠開幕 第1期預計2026年投產、月產能估3萬片

川普「對等關稅」實施倒數 郭智輝：因應辦法會讓大家知道

發佈留言 取消回覆

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維鼓勵學生保有「好奇心」

聯電新加坡新廠開幕第1期預計2026年投產、月產能估3萬片

川普「對等關稅」實施倒數郭智輝：因應辦法會讓大家知道

發佈留言取消回覆