Meta發表新AI MusicGen 可將文字、旋律變成新歌

記者/竹二

Meta在年初成立AI團隊,加快了AI領域的布局與發展,繼先前宣布將在Messenger引入AI貼圖後,近日又發表了AI生成音樂模型MusicGen,據說是根據Google在2017年所推出的Transformer的模型而製作,能夠將文字和已有的旋律轉化成新歌,目前已透過GitHub開源了。

Meta發表AI生成音樂模型MusicGen,夠將文字和已有的旋律轉化成新歌。(圖/截取自pixabay)

MusicGen是個一次到位(One Stage)的自我迴歸(Autoregression)Transformer模型,是在一個32kHz的EnCodec分詞器上進行訓練,使用了4個以50 Hz採樣的碼書(Codebook)。根據Meta官方表示,研究團隊使用了2萬小時的授權音樂來訓練該模型,當中包含1萬首高質量音樂曲目的內部數據集,以及來自ShutterStock與Pond5的音樂資料,並採用EnCodec編碼器將音頻數據分解為更小的單元進行處理。

研究團隊強調,與Google音樂AI工具MusicLM不同的地方是,MusicGen不需要自我監督的語義表示,這代表它在生成音樂時,不需要預先訓練一個模型來理解音樂的語義,再加上一次就可生成4個碼書,藉由在碼書之間導入小延遲,使每秒音頻僅需進行50步的自我迴歸預測。另一個不同的是,Meta開源了MusicGen,但目前Google並沒有打算開放一般用戶使用MusicLM。

研究團隊對MusicGen進行實測的結果顯示,與Google的MusicLM及Riffusion、Mousai、Noise2Music等其他音樂模型相比較,MusicGen在測試音樂與文字提示的匹配度,以及作曲的可信度等指標方面都表現的更好,總體表現高於其他音樂模型的水平。

此外,更特別的是,MusicGen還可以支援文字與旋律的組合輸入,像是如果使用者要求生成一首「輕快及帶有強烈情緒的曲目」,並要求「與貝多芬的《歡樂頌》結合起來」,MusicGen也可以完成指令。

瀏覽 1,590 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button