錄音3秒!微軟Vall-E    能完美模仿你聲音

編譯/莊閔棻

微軟的新語言人工智慧模型 Vall-E 只需要三秒的錄音樣本,就能模仿任何聲音。

根據《福克斯新聞》的報導,Vall-E 在6萬小時的英語語音數據上進行了測試。在康乃爾大學的一篇論文中,研究人員表示,它可以複製說話者的情緒和語氣,而且即使是錄音中的說話者從未說過的話也可以。

Vall-E的創建者們表示,Vall-E 擁有上下文學習能力。其只需要透過3秒錄製的聲音,就可以合成高質量的個性化語音。示意圖:RF123

Vall-E的創建者們表示,Vall-E 擁有上下文學習能力。其只需要透過3秒錄製的聲音,就可以合成高質量的個性化語音。實驗結果表明,就說話的自然度和與說話人的相似度來說,Vall-E明顯優於最先進的文字轉語音人工智慧。Vall-E的創建者還表示,他們發現Vall-E可以在說話時保留說話者的情緒和語調。據報導,雖然技術還不夠成熟,但Vall-E的語調及聲音和錄音中的說話者非常相似。

而像其他人工智慧一樣,這款文字轉語音 AI 也伴隨著研究人員的警告提示。在網頁上,研究人員寫道:「由於 Vall-E 可以模仿他人的聲音,因此可能會有被濫用的風險,如欺騙語音識別或冒充他人等。因此,當模型開放給公眾使用時,使用任何人的聲音前,應該要先取得說話者的同意」。

目前,微軟稱之為「神經編解碼器語言模型」的 Vall-E 尚未向公眾開放。

參考資料:Fox News

瀏覽 898 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button