OpenAI推語音文字互轉模型!能指定說話風格、助攻AI語音應用

記者李琦瑋/綜合報導

OpenAI於20日宣布在其API中,推出3款全新一代音訊模型,包括文字轉語音、語音轉文字功能,改進先前版本,不僅能精準辨識口音和語調,還能指定說話風格,讓AI語音表達更自然,開發者能建立更精準、更強大的AI語音代理(Agent)。

OpenAI董事會決定一致拒絕了,由馬斯克領導的投資財團提出的974億美元收購案。
OpenAI推全新語音文字互轉模型,能指定說話風格,助攻AI語音應用。(圖/123RF)

OpenAI新推出的語音轉文字模型「gpt-4o-transcribe」、「gpt-4o-mini-transcribe」支援超過100種語言,讓單字錯誤率顯著降低,在多個基準測試中優於現有Whisper模型。

延伸閱讀:迎戰中國AI!OpenAI推Responses API和Agents SDK 兩者差在哪裡?白話告訴你!

這兩款模型採用多樣化、高品質音訊資料集進行了長時間的訓練,在嘈雜環境中,也能精準辨識語音細微差別、大幅降低「幻覺」帶來的錯誤,更適用於處理口音語調多元、環境吵雜、語速變化等場景,例如客戶服務中心、會議記錄轉錄等情境。

而新推出的文字轉語音模型「gpt-4o‑mini‑tts」,不僅能產生細膩、自然的語音,還首次支援「可操控性 (steerability)」,也就是說開發者可以指定「說什麼」,還能控制「如何說」,可用自然語言指令指定說話風格,例如要求它以「瘋狂科學家的口吻」或「像冥想老師一樣平和的聲音」說話,可以進一步應用於客服(具同理心的語音,提升用戶體驗)和創意內容(為有聲書或遊戲角色設計個性化聲音)。

對OpenAI而言,這些新模型符合更廣泛的AI代理願景,即打造能夠自主代替用戶執行任務的AI系統。OpenAI平台產品負責人Olivier Godement表示,未來幾個月,大眾將看到越來越多這樣的AI代理問世,OpenAI的核心目標就是協助企業客戶與開發者利用這些實用、可用且準確的AI代理。

※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!

瀏覽 616 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button