哪個AI最強？數百萬專家真實投票結果出爐

2024-07-19

編譯／夏洛特

隨著OpenAI、Google和Meta等公司推出越來越複雜的人工智慧（AI）產品，群眾外包排行榜已經成為重要的評估工具，而其中，致力於開放模型研究組織的大型模型系統組織（LMSYS ORG）的Chatbot Arena，已經成為了即時衡量AI性能，最具影響力的平台之一，讓大家可以針對模型的真實表現進行排行，在該平台上，人們對大型語言模型（LLM）做出了匿名、具有參考性的排行，讓大家可以知道哪個模型最強。

在Chatbot Arena的整體排名，前三依序是GPT-4o、Claude 3.5 Sonnet、Gemini Advanced。（圖／123RF）

Chatbot Arena AI模型排行

據報導，在Chatbot Arena的整體排行榜上，前五名AI模型，依照排名分別是，GPT-4o、Claude 3.5 Sonnet、Gemini Advanced、Gemini 1.5 Pro和GPT-4 Turbo，這些模型在眾多評估類別中表現出色，並獲得了用戶的廣泛認可。

評估AI模型的挑戰

大多數公司會選擇使用「通用能力基準」衡量AI模型的效能，這些基準涵蓋了解決數學問題、程式設計挑戰或回答多項選擇題等任務，然而，對於像OpenAI的GPT-4o、Meta的Llama 3、Google的Gemini和Anthropic的Claude等LLM，目前業界仍沒有標準的評估方法。

西雅圖Allen AI研究所的高級科學家Jesse Dodge指出，即便是資料集、提示和格式等因素的細微差異，也會對模型的表現產生巨大影響，不同公司都會選擇各自的評估標準，使得公平比較LLM變得困難。

群眾外包排行榜的興起

相較之下，群眾外包排行榜則依靠人類的見解，並隨著新AI工具的不斷湧現而變得越來越受歡迎，Chatbot Arena是由LMSYS和加州大學柏克萊分校的Sky Computing實驗室共同開發的開源項目，透過讓訪客比較兩個匿名AI模型的回應並投票，選出最佳模型，以建立AI排行榜，截至目前，該排行榜有基於近150萬人次投票，涵蓋了包括長查詢、程式設計、指令遵循、數學、「硬提示」，及多種語言在內的多個類別。

評估AI模型的重要性

隨著更多AI工具的推出和應用，評估AI模型的重要性將日益增加，史丹佛大學人類中心AI研究所的研究主管Vanessa Parli表示，基準不僅對於評估模型很重要，也是研究人員在開發模型時需要達到的目標，她指出，並非所有人類能力都能以準確的方式量化，但我們也會希望AI模型擁有這些功能，特別是對於處理敏感資訊的組織，如醫療公司，評估偏見、毒性、真實性和其他責任的基準。

參考資料：forbes

瀏覽 10,639 次

覺得不錯的話就分享出去吧！

標籤

2024-07-19

哪個AI最強？數百萬專家真實投票結果出爐

Chatbot Arena AI模型排行

評估AI模型的挑戰

群眾外包排行榜的興起

評估AI模型的重要性

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

Chatbot Arena AI模型排行

評估AI模型的挑戰

群眾外包排行榜的興起

評估AI模型的重要性

推薦工作

延伸閱讀

COMPUTEX 2025／墨西哥雖暫時豁免 洪麗寗如何助緯穎應對美國關稅？

任天堂Switch 2已完成NCC認證 台灣開賣日期不遠了

川普將對進口藥加徵關稅 全球藥廠恐全受衝擊

服務業AI需求大增 經濟部商發署啟動AI人才培育計畫

受惠AI伺服器應用需求擴張 台灣PCB產業鏈年成長率8.1%

中國走私輝達AI晶片太誇張 美議員擬推新法案追蹤售後位置

發佈留言 取消回覆

COMPUTEX 2025／墨西哥雖暫時豁免洪麗寗如何助緯穎應對美國關稅？

任天堂Switch 2已完成NCC認證台灣開賣日期不遠了

川普將對進口藥加徵關稅全球藥廠恐全受衝擊

服務業AI需求大增經濟部商發署啟動AI人才培育計畫

受惠AI伺服器應用需求擴張台灣PCB產業鏈年成長率8.1%

中國走私輝達AI晶片太誇張美議員擬推新法案追蹤售後位置

發佈留言取消回覆