語音功能無敵 GPT-4o 令人印象深刻的演示
編譯/夏洛特
OpenAI 推出了其最新的旗艦人工智慧(AI)模型 GPT-4o,並在一系列現場演示和社群媒體展示中,強調了其先進功能,其中一些演示非常令人印象深刻。新模型中的「o」代表的是「omni」,也就是拉丁語中「所有」的意思,該模型將文字、音訊和圖像融為一體,帶來AI技術的重大飛躍。
感知用戶周圍環境(演示影片)
GPT-4o 可以透過手機相機看到現實世界中用戶周圍的情況,如在一段影片中,該模型就幫助了一名視障男子,告訴他計程車正在駛近,以及何時該揮手叫車。
更多新聞:AI專家不看好GPT-4o 馬斯克:為OpenAI難為情
即時語音翻譯(演示影片)
更令人驚訝的是,GPT-4o還有能為用戶進行即時翻譯的能力。在一部影片中,該模型就即時在英語和西班牙語之間來回翻譯,甚至還可以即時顯示各種物件的外語名稱,非常方便。
會議助理和記錄員(演示影片)
GPT-4o 也可以與用戶一起參加會議,即時回覆同事所說的內容,並在最後回顧要點。不只如此,OpenAI 也展示了其在工作場所的其他功能,在一個演示中,GPT-4o 在螢幕上顯示了程式碼並提出了更改建議,而在另一個剪輯中,它則是總結了 OpenAI 員工提供的數據圖。
數學家教(演示影片)
GPT-4o 可以在用戶解答數學問題時,識別其所寫的內容,並做出相應的回應,引導用戶完成各個步驟,並協助解決問題。
唱歌(演示影片)
不只如此,OpenAI還展示了AI唱歌的能力,在一段影片中,GPT-4o 就根據環境製作並演唱了一首歌曲,而在 OpenAI 發布的其他演示中,GPT-4o 還唱了「生日快樂」和一首根據「majesticpotato」提示創作的歌曲。
更流暢、自然的對話(演示影片)
最後,GPT-4o 聽起來明顯更具對話性,甚至還會不時加入一些笑話,就像電影《雲端情人》中的史嘉蕾·喬韓森(Scarlett Johansson)一樣,用戶不但可以聽到音調變化,還會聽到笑聲,就像在和另一個「人類」說話一樣,非常驚人。
參考資料:Insider
瀏覽 513 次