Meta發表AI壓縮音訊技術　效果比MP3好10倍

2022-11-04

Meta近日公布了一項以AI壓縮音訊的技術，便於在較低頻寬的網路上傳送語音或音樂檔案。目前Meta這項語音壓縮技術尚未涵括影像檔，他們已經將EnCodec技術的程式碼及樣本公布在GitHub上，也公布了技術白皮書。

Meta近日公布了一項以AI壓縮音訊的EnCodec技術。（圖／截取自Meta AI）

雖然現今網路發展已經頗為便利，但使用串流多媒體、傳送高品質音樂仍需要相當大的頻寬及儲存空間，未來若提升到元宇宙的體驗，將對網路頻寬帶來更大負荷，因此，Meta的基礎AI研究（Fundamental AI Research，FAIR）部門本周展示AI音訊超壓縮技術，號稱可在低頻寬網路傳送聲音檔案，而不會發生斷斷續續甚至失聲情形。

FAIR小組所使用的方法，是建了一個名為EnCodec模型系統，運用AI全程訓練，使聲音可以壓縮音訊檔到設定的目標，一共包含三部份，分別是編碼器、量化器及解碼器。編碼器可以將原始資料轉成較高維度及較低影格率的格式，量化器則將這格式資料壓縮。

最後一步是解碼器，可將壓縮訊息重建為類似原始音訊的波形。研究人員表示，其中關鍵在於發現人類察覺不到的變化，為此FAIR團隊利用鑑別器來提升生成樣本的永久品質，鑑別器負責比對原始樣本和生成樣本的差異。

根據Meta研究小組說明，EnCodec在各種頻寬及音訊品質方面，都能在單一CPU核心系統上即時編碼及解碼，且壓縮率是MP3的近10倍，雖然以神經網路壓縮音訊的方法過去也有人做過，但是Meta強調它是第一家將AI技術用於48kHz（約等於CD音質）立體聲音的。

目前Meta這項語音壓縮技術並不包含影像檔，不過為了積極開發元宇宙，FAIR團隊已經展開對影像應用的研究，像是視訊會議、串流電影或是在VR遊戲等，他們也將EnCodec技術的程式碼及樣本公布在GitHub上，並公布了技術白皮書。（記者／竹二）

瀏覽 685 次

覺得不錯的話就分享出去吧！

標籤

2022-11-04

Meta發表AI壓縮音訊技術　效果比MP3好10倍

推薦工作

發佈留言取消回覆

推薦工作

延伸閱讀

入列TOP500 / Green500！華碩全方位伺服器解方盡在SC24

OpenAI打算開發結合ChatGPT的瀏覽器 持續挑戰老大哥Google

逢甲大學全面導入Copilot成就AI校園 提升教學與行政效率

黃仁勳揭示AI擴展3大關鍵要素 合成數據存在爭議

美中AI科技戰升級 川普未來可能推出「AI版曼哈頓計畫」

7個理由證實 Google Gemini已經勝過 ChatGPT

發佈留言 取消回覆

OpenAI打算開發結合ChatGPT的瀏覽器持續挑戰老大哥Google

逢甲大學全面導入Copilot成就AI校園提升教學與行政效率

黃仁勳揭示AI擴展3大關鍵要素合成數據存在爭議

美中AI科技戰升級川普未來可能推出「AI版曼哈頓計畫」

發佈留言取消回覆