哪個AI最強?數百萬專家真實投票結果出爐

編譯/夏洛特

隨著OpenAIGoogleMeta等公司推出越來越複雜的人工智慧(AI)產品,群眾外包排行榜已經成為重要的評估工具,而其中,致力於開放模型研究組織的大型模型系統組織 (LMSYS ORG)的Chatbot Arena,已經成為了即時衡量AI性能,最具影響力的平台之一,讓大家可以針對模型的真實表現進行排行,在該平台上,人們對大型語言模型(LLM)做出了匿名、具有參考性的排行,讓大家可以知道哪個模型最強。

在Chatbot Arena的整體排名,前三依序是GPT-4o、Claude 3.5 Sonnet、Gemini Advanced。
在Chatbot Arena的整體排名,前三依序是GPT-4o、Claude 3.5 Sonnet、Gemini Advanced。(圖/123RF)

Chatbot Arena AI模型排行

據報導,在Chatbot Arena的整體排行榜上,前五名AI模型,依照排名分別是,GPT-4o、Claude 3.5 Sonnet、Gemini Advanced、Gemini 1.5 Pro和GPT-4 Turbo,這些模型在眾多評估類別中表現出色,並獲得了用戶的廣泛認可。

更多新聞:優於ChatGPT和Google 翻譯    DeepL 推出新大型語言模型

評估AI模型的挑戰

大多數公司會選擇使用「通用能力基準」衡量AI模型的效能,這些基準涵蓋了解決數學問題、程式設計挑戰或回答多項選擇題等任務,然而,對於像OpenAI的GPT-4o、Meta的Llama 3、Google的Gemini和Anthropic的Claude等LLM,目前業界仍沒有標準的評估方法。

西雅圖Allen AI研究所的高級科學家Jesse Dodge指出,即便是資料集、提示和格式等因素的細微差異,也會對模型的表現產生巨大影響,不同公司都會選擇各自的評估標準,使得公平比較LLM變得困難。

群眾外包排行榜的興起

相較之下,群眾外包排行榜則依靠人類的見解,並隨著新AI工具的不斷湧現而變得越來越受歡迎,Chatbot Arena是由LMSYS和加州大學柏克萊分校的Sky Computing實驗室共同開發的開源項目,透過讓訪客比較兩個匿名AI模型的回應並投票,選出最佳模型,以建立AI排行榜,截至目前,該排行榜有基於近150萬人次投票,涵蓋了包括長查詢、程式設計、指令遵循、數學、「硬提示」,及多種語言在內的多個類別。

評估AI模型的重要性

隨著更多AI工具的推出和應用,評估AI模型的重要性將日益增加,史丹佛大學人類中心AI研究所的研究主管Vanessa Parli表示,基準不僅對於評估模型很重要,也是研究人員在開發模型時需要達到的目標,她指出,並非所有人類能力都能以準確的方式量化,但我們也會希望AI模型擁有這些功能,特別是對於處理敏感資訊的組織,如醫療公司,評估偏見、毒性、真實性和其他責任的基準。

參考資料:forbes

瀏覽 495 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button