ChatGPT慘輸！Claude 3 榮登AI模型排行冠軍

2024-03-28

編譯／莊閔棻

OpenAI 的 ChatGPT似乎已經不再是最受歡迎的人工智慧（AI）聊天機器人。在AI 研究人員間流行知名平台Chatbot Arena上，隨著AI新創公司Anthropic 的 Claude 3 Opus 排名不斷上升，ChatGPT第一名的地位已經被取代，為Claude創下新紀錄。

AI新創公司 Anthropic 的 Claude 3榮登AI模型排行冠軍。圖／截取自 Anthropic官網

Claude強勢擠進排行榜

據報導，對於去年 5 月才首次出現在Chatbot Arena排行榜上的Claude來說，這是一次重大提升，也是OpenAI 的 GPT-4 首次被擠下首位，而同樣由 Anthropic 開發的 Claude 3 Sonnet（免費的中型模型）和 Claude 3 Haiku（更小、更快的模型）目前則分別排名第四和第六，對Claude來說是很大的認可。

更多新聞：ChatGPT強勁對手出現 Claude 3可以做些什麼？

GPT-4慘輸

值得注意的是，排行榜包括不同版本的 GPT-4，如 GPT-4-0314（2023 年 3 月起的 GPT-4 的「原始」版本）、GPT-4-0613、GPT-4-1106-預覽版和 GPT-4 -0125-預覽版（從2024 年1 月起，透過API 提供的最新GPT-4 Turbo 模型）。根據排名，Claude 的Sonnet 和 Haiku 均優於原始 GPT-4，其中 Sonnet 也超過了 OpenAI 於 2023 年 6 月推出的調整版本。

Gemini Pro表現不差

此外，大家關注的Google免費 Gemini Pro 目前則排名第四，位於 GPT-4 Turbo 和 Claude 3 Sonnet 之間，但該公司最好的 Gemini Ultra 型號因為目前還無法進行測試，尚未出現在排行榜中。

無法「作弊」的排行

Chatbot Arena 由致力於開放模型研究組織的大型模型系統組織（LMSYS ORG）經營，該平台透過向使用者提供兩種未標記的語言模型，並要求其根據他們認為合適的標準，評價哪一種表現更好，做出此排名。這種基於參與者的方法，讓模型訓練者不能「作弊」，不但更主觀，也更有參考性。遺憾的是，在進入前 10 名的大型模型之中，只有Qwen是開源的，其他開源模型，包括Starling 7b 和 Mixtral 8x7B 則都排在10幾名。

參考資料：decrypt

瀏覽 5,246 次

覺得不錯的話就分享出去吧！

標籤

2024-03-28

ChatGPT慘輸！Claude 3 榮登AI模型排行冠軍

Claude強勢擠進排行榜

GPT-4慘輸

Gemini Pro表現不差

無法「作弊」的排行

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

Claude強勢擠進排行榜

GPT-4慘輸

Gemini Pro表現不差

無法「作弊」的排行

推薦工作

延伸閱讀

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維 鼓勵學生保有「好奇心」

聯電新加坡新廠開幕 第1期預計2026年投產、月產能估3萬片

發佈留言 取消回覆

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維鼓勵學生保有「好奇心」

聯電新加坡新廠開幕第1期預計2026年投產、月產能估3萬片

發佈留言取消回覆