Meta推出新一代AI模型 Audiobox助力生成語音及音效
記者/竹二
Meta的基礎AI研究團隊FAIR成立十週年,近日他們除了歡慶十週年之外,更公布AI領域的最新突破,像是兼具第一人稱及外部視角的AI模型 Ego-Exo4D、語音生成模型Audiobox,以及翻譯模型Seamless Communication等。
Meta各項AI領域積極發展
根據Meta的說法,過去十年他們在各類AI領域取得重大進展,研發出可辨識圖像中個別單一物體的Segment Anything 技術、建立在不仰賴英文的前提下翻譯100種語言的NLLB模型,近期更將文字轉語音及語音轉文字的技術擴展超過1000種語言、發布開放且可預先訓練的大型語言模型Llama後,接著推出可供免費用於研究與商用的Llama 2。
更多新聞:另闢蹊徑!Meta、聯發科結盟 客製化AR眼鏡晶片組
Meta改良Ego-Exo,可結合智慧眼鏡
為教導AI模擬以人類的視角辨識事物,Meta改良Ego-Exo技術,研發出可同時捕捉穿戴者第一人稱視角,以及穿戴者四周的外部視角的Ego-Exo4D技術,在兩個視角的結合下,AI模型能透過更完整的環境資訊,充分理解人類的所見所聞。Meta表示,這項AI創新技術可結合智慧眼鏡,讓虛擬AI教練透過教學影片,引導觀看者快速學習新技能,像是觀看技術人員修理機器的操作過程,並將指導步驟與自身動作進行比對。
Voicebox更新成Audiobox,進一步升級
此外,繼今年初Meta發布生成式AI模型Voicebox,協助語音編輯、樣本採集及語音風格塑造後,更新版的Audiobox則是進一步升級生成式AI技術,使用者可以藉由語音指令或文字說明描述想要生成的聲音或語音類型,像是利用文字「潺潺的溪水與鳥鳴」,就可以建立配樂,或是以口頭描述「一名年輕女性以高音及快速的語調說話」來產出語音,讓客製化音訊的打造更加輕鬆等。
瀏覽 630 次