錄音3秒!微軟Vall-E 能完美模仿你聲音
編譯/莊閔棻
微軟的新語言人工智慧模型 Vall-E 只需要三秒的錄音樣本,就能模仿任何聲音。
根據《福克斯新聞》的報導,Vall-E 在6萬小時的英語語音數據上進行了測試。在康乃爾大學的一篇論文中,研究人員表示,它可以複製說話者的情緒和語氣,而且即使是錄音中的說話者從未說過的話也可以。
Vall-E的創建者們表示,Vall-E 擁有上下文學習能力。其只需要透過3秒錄製的聲音,就可以合成高質量的個性化語音。實驗結果表明,就說話的自然度和與說話人的相似度來說,Vall-E明顯優於最先進的文字轉語音人工智慧。Vall-E的創建者還表示,他們發現Vall-E可以在說話時保留說話者的情緒和語調。據報導,雖然技術還不夠成熟,但Vall-E的語調及聲音和錄音中的說話者非常相似。
而像其他人工智慧一樣,這款文字轉語音 AI 也伴隨著研究人員的警告提示。在網頁上,研究人員寫道:「由於 Vall-E 可以模仿他人的聲音,因此可能會有被濫用的風險,如欺騙語音識別或冒充他人等。因此,當模型開放給公眾使用時,使用任何人的聲音前,應該要先取得說話者的同意」。
目前,微軟稱之為「神經編解碼器語言模型」的 Vall-E 尚未向公眾開放。
參考資料:Fox News
瀏覽 896 次