Meta發表AI壓縮音訊技術　效果比MP3好10倍

2022-11-04

Meta近日公布了一項以AI壓縮音訊的技術，便於在較低頻寬的網路上傳送語音或音樂檔案。目前Meta這項語音壓縮技術尚未涵括影像檔，他們已經將EnCodec技術的程式碼及樣本公布在GitHub上，也公布了技術白皮書。

Meta近日公布了一項以AI壓縮音訊的EnCodec技術。（圖／截取自Meta AI）

雖然現今網路發展已經頗為便利，但使用串流多媒體、傳送高品質音樂仍需要相當大的頻寬及儲存空間，未來若提升到元宇宙的體驗，將對網路頻寬帶來更大負荷，因此，Meta的基礎AI研究（Fundamental AI Research，FAIR）部門本周展示AI音訊超壓縮技術，號稱可在低頻寬網路傳送聲音檔案，而不會發生斷斷續續甚至失聲情形。

FAIR小組所使用的方法，是建了一個名為EnCodec模型系統，運用AI全程訓練，使聲音可以壓縮音訊檔到設定的目標，一共包含三部份，分別是編碼器、量化器及解碼器。編碼器可以將原始資料轉成較高維度及較低影格率的格式，量化器則將這格式資料壓縮。

最後一步是解碼器，可將壓縮訊息重建為類似原始音訊的波形。研究人員表示，其中關鍵在於發現人類察覺不到的變化，為此FAIR團隊利用鑑別器來提升生成樣本的永久品質，鑑別器負責比對原始樣本和生成樣本的差異。

根據Meta研究小組說明，EnCodec在各種頻寬及音訊品質方面，都能在單一CPU核心系統上即時編碼及解碼，且壓縮率是MP3的近10倍，雖然以神經網路壓縮音訊的方法過去也有人做過，但是Meta強調它是第一家將AI技術用於48kHz（約等於CD音質）立體聲音的。

目前Meta這項語音壓縮技術並不包含影像檔，不過為了積極開發元宇宙，FAIR團隊已經展開對影像應用的研究，像是視訊會議、串流電影或是在VR遊戲等，他們也將EnCodec技術的程式碼及樣本公布在GitHub上，並公布了技術白皮書。（記者／竹二）

瀏覽 748 次

覺得不錯的話就分享出去吧！

標籤

2022-11-04

Meta發表AI壓縮音訊技術　效果比MP3好10倍

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

AIF攜高通推「AI化大調查報告」！曝近7成企業對AI僅有初步認知

川普加徵關稅嚴控晶片出口 黃仁勳西裝現身北京：堅持深耕中國

川普關稅衝擊大？劉揚偉：鴻海提早5年布局、影響相對小

因應關稅變局！鴻海劉揚偉：AI市場龐大是台灣的機會

OpenAI傳打造AI社交平台！結合ChatGPT 劍指X與Meta

蘇姿丰登2025時代百大影響力人物！她如何引領AMD翻身創半導體傳奇？

發佈留言 取消回覆

川普加徵關稅嚴控晶片出口黃仁勳西裝現身北京：堅持深耕中國

發佈留言取消回覆