OpenAI 進軍擬真聲音市場|專家論點【Howie Su】
作者:Howie Su(產業分析師)
持續顛覆各種市場
OpenAI 不滿足於僅用其各種 AI 模型來顛覆文字生成、圖像、影視,它還進入傳統數位媒體的最後一種主要形式:「音訊」。
簡單來說就是複製各種聲音,公司近來推出其最新的人工智慧模型「語音引擎」,據稱該模型自 2022 年以來持續開發,目前為 OpenAI 的文本轉語音 API,以及 3 月推出的新 ChatGPT 語音和朗讀功能提供支援,它的工作原理是這樣的:人類說話者透過手機或電腦麥克風錄製 15 秒的語音片段,OpenAI 的語音引擎會產生「與原始說話者非常相似的自然語音」,並且可以在以後使用,大聲說出人類使用者輸入的任何文字。
對語音市場的巨大影響
對於那些經常錄製聲音的使用者來說,這項技術顯然具有巨大的影響,無論是 Podcast、配音藝術家、口語表演者、有聲讀物和廣告解說員、遊戲玩家、主播、客服、銷售人員都是,未來能讓他們工作時更為便利,OpenAI 進一步強調語音引擎為非語言個體提供支援的能力,為他們提供獨特的人類語音,並為有言語障礙或學習需求的人提供治療和教育提供幫助。
當然,一如往常般,OpenAI 也給其他發展此類技術的公司帶來壓力,例如資金雄厚的人工智慧新創公司 ElevenLabs、Captions、Meta、WellSaid Labs、MyShell 等。
受限的使用者
為維持其隱密性,Open AI 並沒有向社會大眾開放,而是提供部分企業使用,一部分可能還在觀察該技術的使用性,一部分也是防止被過度濫用,目前的使用者如下。
- Age of Learning 是一家教育科技公司,使用語音引擎和 GPT-4 產生預先編寫的即時個人化語音內容,為不同的學生受眾提升互動體驗。
- HeyGen 是一個人工智慧視覺說故事平台,使創作者和企業能夠將其內容翻譯成多種語言,採用語音引擎進行視訊翻譯,建立具有多語言聲音,保留原始說話者的口音,以吸引使用者。
- Dimagi 是一家為社區健康工作者提供工具的軟體公司,它使用語音引擎和 GPT-4 為所述工作者提供各種語言的互動式回饋,從而改善遠端環境中的基本服務交付。
- Livox 是一款人工智慧應用程式,適用於有言語和聽力困難的人使用的增強和替代溝通設備,它整合語音引擎,為非語言個體提供跨語言的獨特的人類語音。
技術本身還需要一些時間發酵
但就目前而言,這項技術仍有限,與其強大、極其逼真和生動的視訊生成人工智慧模型 Sora 一樣,OpenAI 目前不允許大眾使用語音引擎,相反,今天 OpenAI 只是與獲得使用權限的「一小群值得信賴的合作夥伴」分享該工具的存在以及「小規模預覽的初步見解和結果」。
由於合成語音濫用的可能性,公司正在採取謹慎和知情的方式來更廣泛地發布,希望就合成聲音的負責任部署以及社會如何適應這些新功能展開討論,主要的風險依舊來自政府的限制,因此,技術要到商轉,還是有一大段路要走。
瀏覽 413 次