錄音3秒！微軟Vall-E 能完美模仿你聲音

2023-01-12

編譯／莊閔棻

微軟的新語言人工智慧模型 Vall-E 只需要三秒的錄音樣本，就能模仿任何聲音。

根據《福克斯新聞》的報導，Vall-E 在6萬小時的英語語音數據上進行了測試。在康乃爾大學的一篇論文中，研究人員表示，它可以複製說話者的情緒和語氣，而且即使是錄音中的說話者從未說過的話也可以。

Vall-E的創建者們表示，Vall-E 擁有上下文學習能力。其只需要透過3秒錄製的聲音，就可以合成高質量的個性化語音。示意圖:RF123

Vall-E的創建者們表示，Vall-E 擁有上下文學習能力。其只需要透過3秒錄製的聲音，就可以合成高質量的個性化語音。實驗結果表明，就說話的自然度和與說話人的相似度來說，Vall-E明顯優於最先進的文字轉語音人工智慧。Vall-E的創建者還表示，他們發現Vall-E可以在說話時保留說話者的情緒和語調。據報導，雖然技術還不夠成熟，但Vall-E的語調及聲音和錄音中的說話者非常相似。

而像其他人工智慧一樣，這款文字轉語音 AI 也伴隨著研究人員的警告提示。在網頁上，研究人員寫道：「由於 Vall-E 可以模仿他人的聲音，因此可能會有被濫用的風險，如欺騙語音識別或冒充他人等。因此，當模型開放給公眾使用時，使用任何人的聲音前，應該要先取得說話者的同意」。

目前，微軟稱之為「神經編解碼器語言模型」的 Vall-E 尚未向公眾開放。

參考資料：Fox News

瀏覽 957 次

覺得不錯的話就分享出去吧！

標籤

2023-01-12

錄音3秒！微軟Vall-E 能完美模仿你聲音

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

三星執行長韓鍾熙猝逝 「穩定接班」神話再度動搖？

中國開發「可變形」深海機器人！成功挑戰地球最深的馬里亞納海溝

Pixel 9a來了！Google AI手機進化台灣工程團隊關鍵貢獻

Google推出Gemini機器人！給他看影片就能學習 還會推理思考

工研院VLSI TSA國際研討會4/21登場！聚焦高效能運算、矽光子與量子計算

廣達2024營收亮眼！配發股利13元、加碼11億元投資美量子電腦商Rigetti

發佈留言 取消回覆

三星執行長韓鍾熙猝逝「穩定接班」神話再度動搖？

Google推出Gemini機器人！給他看影片就能學習還會推理思考

發佈留言取消回覆