Meta新AI模型語音文字互轉範圍 涵蓋千種以上語言

記者/陳士勳

為了防止不少語言因語音辨識和語音生成技術局限而失傳的風險,Meta已宣稱開發出能擴展文字轉語音、語音轉文字等技術應用範圍的大規模多語言語音模型(MSS),對比最初的100種語言,如今可轉換1100種以上語言,超越過往的10倍,同時還能辨識超過4000種口語語言,為過去40倍,成長幅度相當驚人。

Meta宣布推出能互轉千種以上語言的AI模型。示意圖:123RF

Meta表示,大型語音資料庫以往最多僅涵蓋100種語言,若想有所突破,得先蒐集數千種語言的語音訓練資料,並借助已翻譯成多種語言、譯文,且擁有多種語言公開錄音檔的「聖經」,為語言文字訓練資料。

Meta指出,藉由上述方法創造出累積超過1100種語言「新約聖經」的有聲讀物資料集,平均可為每種語言提供32小時的語音訓練資料,後續加入其他未標註的基督教有聲讀物後,可用的語言訓練資料,甚至涵蓋超過4000種語言,雖然資料集收錄聲音以男性居多,但測試成果顯示,無論男性或女性的聲音,該語音模型皆能準確地辨識。

Meta強調,所採用語言訓練資料大多雖為宗教相關內容,但分析結果評估模型不會傾向生成更多的宗教性質語言,何況現階段如VR(虛擬實境)、AR(擴增實境),或訊息服務,都能看見該技術的應用實例,因此,未來將持續擴大語音模型涵蓋語言範圍,藉此支援更多語言的轉換及辨識。

瀏覽 352 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button