NVIDIA成關鍵推手！Speak大幅強化核心語音辨識系統

2024-09-06

記者／孫敬 Archer Sun

AI語言學習平台Speak近日宣布整合多平台訓練數據，以此提升核心語音辨識系統，助使用者能更貼近外文使用者實際互動場景。與之前的模型相比，Speak透過NVIDA旗下產品，降低新版模型的字詞錯誤率（WER）達45％，整體字詞錯誤率亦減少超過60%，訓練數據集中在特定領域，涵蓋多種強烈口音，這些口音是現成的模型難以處理的。

延伸閱讀：AI 語言學習平台 Speak 前進台灣市場　推動在地化學習內容

NVIDIA NeMo加速Speak開發、訓練語言模型

早期Speak曾針對iOS、Android作業系統分別搭建不同的語音辨識系統，搭配Speak客製化模型及協力廠商提供多個語音辨識模型進行訓練，但其中包含Speak當初為支援大量版本、各種不同且老舊的行動裝置，使用較小型及效能不佳的訓練模型，導致數據來源分散、重複，造成系統端整合數據資料時，運維工作量倍增且複雜。

為有效解決這個問題，Speak透過NVIDIA NeMo；一款專為研究和開發語音和大語言模型所開發的端對端雲原生開源框架，來加速分散式訓練和模型的開發維運。在整合自動語音辨識（ASR）模型推理及後處理邏輯，Speak將核心語音基礎架構重新打造為單一、更大型的後端系統，導入來自全球Speak App裡面數千小時學習者、帶有各地濃厚口音的英語語音作為訓練數據庫，將Speak所有數據庫整合，簡化維運以確保所有用戶和裝置，都能獲得即時、高效的服務回饋。

Speak將字詞錯誤率（WER）降低了45％，整體字詞錯誤率減少超過 60%。（圖／Speak）

NVIDIA Riva加速用戶端雙向互動

在精準辨識用戶英語口音方面，Speak使用了Conformer語音辨識模組（一種用於聲音和語音處理的深度學習模型結構，用於語音識別和自然語言處理任務），並以微調後的Conformer-CTC架構訓練全球Speak帶有濃厚口音的英語語音數據庫，以快速辨識長串語句的關聯字詞，並根據上下文語意特徵，快速給予回饋。

除此之外，用戶重視的即時互動體驗，Speak將微調後的Conformer-CTC 架構，部署並運行在NVIDIA Riva 上（NVIDIA Riva是一組GPU加速的多語言語音和翻譯微服務），讓聲音數據在系統和用戶端之間的傳遞更有效率、創造高速的雙向互動。

Speak表示，「過去從提示用戶開始說話並錄音的那一刻起，用戶平均需要大約1.6秒才能收到第一個口語的回饋，但使用升級的系統架構之後，相較於以前使用協力廠商的語音辨識服務，平均速度提高了20%。Speak還會根據每日流量在不同時間的高低不同來擴展Riva節點，並確保至少每260毫秒提供一次回饋，能夠達到與日常對話中人類的平均反應時間接近。」

當用戶朗讀句子時，Speak會使用中間辨識結果以藍色突出顯示單詞並提供即時回饋。（圖／Speak）

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 251 次

覺得不錯的話就分享出去吧！

標籤

2024-09-06

NVIDIA成關鍵推手！Speak大幅強化核心語音辨識系統

NVIDIA NeMo加速Speak開發、訓練語言模型

NVIDIA Riva加速用戶端雙向互動

推薦工作

發佈留言取消回覆

NVIDIA NeMo加速Speak開發、訓練語言模型

NVIDIA Riva加速用戶端雙向互動

推薦工作

延伸閱讀

Pokémon Go幫忙訓練AI 「空間智慧」成新一代趨勢

微星進軍智慧建築市場 新建案導入智慧AC充電樁

台隆手創館導入AI虛擬店長 開啟「精準化服務2.0」

ChatGPT搜尋市占率持續上升 有望4年內超車Google

超越聊天機器人！連黃仁勳都看好 「AI助理」將成下一個科技核心

AI是否會取代我的工作？專家許旭安揭示：職位不會消失 但工作內容會完全不同

發佈留言 取消回覆

微星進軍智慧建築市場新建案導入智慧AC充電樁

台隆手創館導入AI虛擬店長開啟「精準化服務2.0」

ChatGPT搜尋市占率持續上升有望4年內超車Google

超越聊天機器人！連黃仁勳都看好「AI助理」將成下一個科技核心

AI是否會取代我的工作？專家許旭安揭示：職位不會消失但工作內容會完全不同

發佈留言取消回覆