開發語音AI Nvidia正式參與Meta與Google翻譯競賽
Nvidia正式進入Meta與Google的翻譯競賽。在Nvidia’s Speech AI Summit上,Nvidia宣布了旗下全新的語音人工智慧生態系統 – 一款致力於發展群眾外包的多語語音資料庫和開源的預訓練模型(pretrained models)。該系統是Nvidia與Mozilla Common Voice所合作開發出來的,目的在於加速自動語音識別模型的發展,讓這些模型可以普遍應用於每種語言的使用者。
新的語音人工智慧生態系統可協助開發人員在語音人工智慧生態和數據集上的任務。用戶可以透過Mozilla Common Voice訓練模型,然後提供出這些預訓練模型當作高品質語音辨認架構。這些架構就是全世界的行為體有能力建構自己的語音人工智慧應用程式的途徑。
Nvidia Riva是Nvidia目前在語音人工智慧的進展。Nvidia正在開發自動語音識別(ASR)、人工語音翻譯(AST)、文本到語音等人工智慧平台一部分。它提供了GPU最佳化工作流程,可以建造實時人工智慧管道。其應用範圍包括虛擬助理、虛擬化身、品牌聲音等。
在實際應用案例中,移動通訊集團T-Mobile也正在和Nvidia合作為客戶體驗中心開發以人工智慧為基礎的軟體。T-Mobile透過Riva和當前最新技術的對話式人工智慧模型開源框架Nvidia NeMo來創造該軟體。T-Mobile想要創造出可以轉錄即時的客戶對話,並能向在一線的工作人員提供解決方案。而透過Nvidia提供的工具可以幫助T-Mobile工程師在自定義資料集(custom dataset)上微調(fine-tune) ASR模型,以及吵雜的環境中能傳譯顧客的話。
Nvidia接下來的目標,將會把AST和下一代語音人工智慧灌輸到實時元宇宙用例中。Nvidia下一步將會開發系統是可以透過全語言與即時文字轉語音(text-to-speech, TTS)來實現全球人類的流暢互動。Nvidia深信未來可以讓元宇宙中的人們跨越語言鴻溝,彼此間的對話能即時翻譯。(編譯/施毓萱)
資料來源:VentureBeat
瀏覽 796 次