OpenAI推語音文字互轉模型！能指定說話風格、助攻AI語音應用

2025-03-21

記者李琦瑋／綜合報導

OpenAI於20日宣布在其API中，推出3款全新一代音訊模型，包括文字轉語音、語音轉文字功能，改進先前版本，不僅能精準辨識口音和語調，還能指定說話風格，讓AI語音表達更自然，開發者能建立更精準、更強大的AI語音代理（Agent）。

OpenAI董事會決定一致拒絕了，由馬斯克領導的投資財團提出的974億美元收購案。 — OpenAI推全新語音文字互轉模型，能指定說話風格，助攻AI語音應用。（圖／123RF）

OpenAI新推出的語音轉文字模型「gpt-4o-transcribe」、「gpt-4o-mini-transcribe」支援超過100種語言，讓單字錯誤率顯著降低，在多個基準測試中優於現有Whisper模型。

延伸閱讀：迎戰中國AI！OpenAI推Responses API和Agents SDK 兩者差在哪裡？白話告訴你！

這兩款模型採用多樣化、高品質音訊資料集進行了長時間的訓練，在嘈雜環境中，也能精準辨識語音細微差別、大幅降低「幻覺」帶來的錯誤，更適用於處理口音語調多元、環境吵雜、語速變化等場景，例如客戶服務中心、會議記錄轉錄等情境。

而新推出的文字轉語音模型「gpt-4o‑mini‑tts」，不僅能產生細膩、自然的語音，還首次支援「可操控性（steerability）」，也就是說開發者可以指定「說什麼」，還能控制「如何說」，可用自然語言指令指定說話風格，例如要求它以「瘋狂科學家的口吻」或「像冥想老師一樣平和的聲音」說話，可以進一步應用於客服（具同理心的語音，提升用戶體驗）和創意內容（為有聲書或遊戲角色設計個性化聲音）。

對OpenAI而言，這些新模型符合更廣泛的AI代理願景，即打造能夠自主代替用戶執行任務的AI系統。OpenAI平台產品負責人Olivier Godement表示，未來幾個月，大眾將看到越來越多這樣的AI代理問世，OpenAI的核心目標就是協助企業客戶與開發者利用這些實用、可用且準確的AI代理。

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 616 次

覺得不錯的話就分享出去吧！

標籤

2025-03-21

OpenAI推語音文字互轉模型！能指定說話風格、助攻AI語音應用

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

傳蘋果罕見重組高層！全力搶救Siri、加速AI研發

資策會聯手德凱集團 打造台灣晶片資安實驗室

輝達不再只是賣晶片！黃仁勳媒體聯訪談「AI基礎設施」未來願景

美國想要AI稱霸世界 離不開台灣！賴清德強調：我們是不可取代的夥伴

輝達GTC首屆量子日登場！黃仁勳宣布於波士頓設量子實驗室

NVIDIA成立量子運算實驗室！576顆GPU加持 催生量子電腦

發佈留言 取消回覆

資策會聯手德凱集團打造台灣晶片資安實驗室

美國想要AI稱霸世界離不開台灣！賴清德強調：我們是不可取代的夥伴

NVIDIA成立量子運算實驗室！576顆GPU加持催生量子電腦

發佈留言取消回覆