Meta發表AI壓縮音訊技術 效果比MP3好10倍
Meta近日公布了一項以AI壓縮音訊的技術,便於在較低頻寬的網路上傳送語音或音樂檔案。目前Meta這項語音壓縮技術尚未涵括影像檔,他們已經將EnCodec技術的程式碼及樣本公布在GitHub上,也公布了技術白皮書。
雖然現今網路發展已經頗為便利,但使用串流多媒體、傳送高品質音樂仍需要相當大的頻寬及儲存空間,未來若提升到元宇宙的體驗,將對網路頻寬帶來更大負荷,因此,Meta的基礎AI研究(Fundamental AI Research,FAIR)部門本周展示AI音訊超壓縮技術,號稱可在低頻寬網路傳送聲音檔案,而不會發生斷斷續續甚至失聲情形。
FAIR小組所使用的方法,是建了一個名為EnCodec模型系統,運用AI全程訓練,使聲音可以壓縮音訊檔到設定的目標,一共包含三部份,分別是編碼器、量化器及解碼器。編碼器可以將原始資料轉成較高維度及較低影格率的格式,量化器則將這格式資料壓縮。
最後一步是解碼器,可將壓縮訊息重建為類似原始音訊的波形。研究人員表示,其中關鍵在於發現人類察覺不到的變化,為此FAIR團隊利用鑑別器來提升生成樣本的永久品質,鑑別器負責比對原始樣本和生成樣本的差異。
根據Meta研究小組說明,EnCodec在各種頻寬及音訊品質方面,都能在單一CPU核心系統上即時編碼及解碼,且壓縮率是MP3的近10倍,雖然以神經網路壓縮音訊的方法過去也有人做過,但是Meta強調它是第一家將AI技術用於48kHz(約等於CD音質)立體聲音的。
目前Meta這項語音壓縮技術並不包含影像檔,不過為了積極開發元宇宙,FAIR團隊已經展開對影像應用的研究,像是視訊會議、串流電影或是在VR遊戲等,他們也將EnCodec技術的程式碼及樣本公布在GitHub上,並公布了技術白皮書。(記者/竹二)
瀏覽 685 次