Meta釋出新AI模型 可翻譯語音、文字100種語言
記者/竹二
為了開發能夠理解一系列不同語言的AI系統,Meta近日釋出首個多語多模AI翻譯模型SeamlessM4T,它可以翻譯和轉錄支援將近100種語言之間的文字和語音翻譯,使不同語言的人能夠溝通。
SeamlessM4T有4種模式,開發訓練過程曝光
所謂的SeamlessM4T,可以說是Meta「絕不拋下任何語言」(No Language Left Behind,NLLB)專案和通用語音翻譯工具(Universal Speech Translator,UST)的意志繼承者,建立在大規模多語言語音的基礎上,可以翻譯並有語音轉語音、語音轉文字、文字轉語音,以及文字轉文字等4種模式,支援近100種語言。
據悉,在開發的過程當中,Meta從網路上抓取約數百億個公開的文字與句子,以及約400萬小時的語音做為訓練資料,他們建立SeamlessM4T的訓練資料組,內部稱為「SeamlessAlign」。研究人員將44.3萬個小時的語音和文字配對,建立2.9萬個小時「語音轉語音」的配對內容,教會SeamlessM4T要如何在語音和文字之間相互翻譯。
SeamlessM4T並非完美,翻譯過度男性
Meta表示,他們在部基準進行測試下,與目前最先進的語音轉譯模型相比,SeamlessM4T在語音轉文字的處理表現是最好的,這歸功於訓練資料組有著語音和文字資料的豐富組合,Meta認為SeamlessM4T比純語音和純文字的翻譯模型更具優勢。
不過,SeamlessM4T雖然看起來好像相當厲害,但也不是完美,Meta透露,它在翻譯中性字詞翻譯,容易過度概括成男性,且在涉及男性的英文翻譯時表現較其他語言好,他們推測可能是因為訓練資料有過度的男性詞彙導致這種結果。
瀏覽 1,616 次