AI 語音生成再進化!柯南變聲器不再是卡通道具

作者:
蔡鈺鼎(逢甲大學 精密系統設計學士學位學程 及 電聲碩士學位學程學程 副教授兼學程主任 )

圖片網址引用來源:https://crimsontech.jp/wp-content/uploads/Voidol-ECShop-syousai_PI.png

大家有沒有看過電影名偵探柯南、還有很多電腦 AI 與演員互動的科技電影?裡頭有各種很炫的模仿人聲,或是擬真的電腦人語音劇情橋段。現在有了 AI 技術,語音合成與語調模仿不在是不可能的任務。

此技術稱為語音轉換(VOICE conversion, VC)是一種轉換語音的任務,由原說話者說出的語句聲音再經由模型轉換變成目標說話者的聲音,同時保持語句內容不變。

近年來由於軟硬體與演算法技術的成長,VC 方面的各項任務如:歌聲合成、文本到語音合成、文字到音素、旋律/歌詞轉錄、錄音質量的語音增強、自動語音識別等,都有各種使用場景的突破,造福影音工作者縮減工作量,並廣泛用於行銷宣傳。

由於語音的合成與比對有諸多的限制,傳統的技術方法有時間對齊、頻率的穩定與音調對應,以及各種場景的干涉與合成等諸多面向,使得以往利用傳統最佳化或語音演算法來實踐 VC 技術實際上是很困難的。

現今以 AI 深度學習為基底的演算法可說是很成功的。深度學習的進步對聲碼技術產生了深遠的影響,從 Big Data 分析,利用各項融合數據,藉由大量有規則的訓練模式來萃取語音特徵,並有效的進行目標語音合成。

另一大進步性在於語音分析和重建模塊,通常使用傳統的參數聲碼器會有過於模式簡化或是仰賴手動調整使得 VC 效果不彰,但利用深度類神經方法使得聲碼器進化成可訓練和對應數據來驅動生成模型,從資料中學習從聲學特徵重建高傳真的音頻波形。

目前常見或商用的軟體舉例如:

都可以很快速地做即時音調的轉換,根據期待的場景反映出相對應的聲音!看完大家是不是很想要嘗試與 AI 互動一下,一起創造更多有特色的聲音呢!

瀏覽 2,116 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button