微軟VALL-E只需3秒模擬真實聲音恐成詐騙利器

2023-02-10

記者／陳士勳

微軟新的AI模型「VALL-E」帶來新革命，用戶僅提供3秒鐘的音訊，該模型便能模擬本人說話的聲音、語調及說話時的情緒，甚至連音訊背景的「聲音環境」，也能如法炮製，不過如此功能可能被詐騙人士利用，微軟也開發檢測模型，區分該音訊是否經由VALL-E合成，且制定相關AI原則，避免惡意濫用。

微軟研究人員表示，VALL-E基於Meta在2022年10月發表的EnCodec技術，所打造而成的「神經編碼解碼器語言模型」，不同於一般透過操控波形合成語音的常見文字轉語音法，而是從文字與聲音提示，產生個別音訊編碼解碼器程式碼，並透過EnCodec，將資訊分解成可稱為「標記」（Token）的個別元件，進而分析人類發音。

微軟指出，VALL-E能對比訓練資料與「學會」的聲音，只要上傳3秒鐘的音檔，即可複製該語調來說話，為了建構VALL-E的語音合成能力，微軟採用內含7千多人、約 6 萬小時說話內容的LibriLight音訊庫訓練，以提供用戶數十個的AI模型執行範例音訊。

微軟強調，由於VALL-E還可模擬音訊背景的「聲音環境」，簡單來說，如果音訊來自不同場合，像講電話、搭乘交通工具、開車等背景，接聽者會感覺音訊是經該背景所傳遞而來，因此，微軟準備應對的檢測模型，辨別真假音訊，預防VALL-E成為詐騙和網路攻擊的武器。

瀏覽 909 次

覺得不錯的話就分享出去吧！

標籤

2023-02-10

微軟VALL-E只需3秒模擬真實聲音恐成詐騙利器

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

黃仁勳一句話讓量子股重摔！微軟卻說快成功 量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維 鼓勵學生保有「好奇心」

發佈留言 取消回覆

黃仁勳一句話讓量子股重摔！微軟卻說快成功量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維鼓勵學生保有「好奇心」

發佈留言取消回覆