ChatGPT慘輸!Claude 3 榮登AI模型排行冠軍
編譯/莊閔棻
OpenAI 的 ChatGPT似乎已經不再是最受歡迎的人工智慧(AI)聊天機器人。在AI 研究人員間流行知名平台Chatbot Arena上,隨著AI新創公司Anthropic 的 Claude 3 Opus 排名不斷上升,ChatGPT第一名的地位已經被取代,為Claude創下新紀錄。
Claude強勢擠進排行榜
據報導,對於去年 5 月才首次出現在Chatbot Arena排行榜上的Claude來說,這是一次重大提升,也是OpenAI 的 GPT-4 首次被擠下首位,而同樣由 Anthropic 開發的 Claude 3 Sonnet(免費的中型模型)和 Claude 3 Haiku(更小、更快的模型)目前則分別排名第四和第六,對Claude來說是很大的認可。
更多新聞:ChatGPT強勁對手出現 Claude 3可以做些什麼?
GPT-4慘輸
值得注意的是,排行榜包括不同版本的 GPT-4,如 GPT-4-0314(2023 年 3 月起的 GPT-4 的「原始」版本)、GPT-4-0613、GPT-4-1106-預覽版和 GPT-4 -0125-預覽版(從2024 年1 月起,透過API 提供的最新GPT-4 Turbo 模型)。 根據排名,Claude 的Sonnet 和 Haiku 均優於原始 GPT-4,其中 Sonnet 也超過了 OpenAI 於 2023 年 6 月推出的調整版本。
Gemini Pro表現不差
此外,大家關注的Google免費 Gemini Pro 目前則排名第四,位於 GPT-4 Turbo 和 Claude 3 Sonnet 之間,但該公司最好的 Gemini Ultra 型號因為目前還無法進行測試,尚未出現在排行榜中。
無法「作弊」的排行
Chatbot Arena 由致力於開放模型研究組織的大型模型系統組織 (LMSYS ORG)經營,該平台透過向使用者提供兩種未標記的語言模型,並要求其根據他們認為合適的標準,評價哪一種表現更好,做出此排名。這種基於參與者的方法,讓模型訓練者不能「作弊」,不但更主觀,也更有參考性。遺憾的是,在進入前 10 名的大型模型之中,只有Qwen是開源的,其他開源模型,包括Starling 7b 和 Mixtral 8x7B 則都排在10幾名。
參考資料:decrypt
瀏覽 4,532 次