Claude 3是什麼？深入解析Anthropic 的新AI模型

2024-03-06

編譯／莊閔棻

隨著人工智慧（AI）不斷發展，日前由 OpenAI 幾位前員工創立的人工智慧（AI）公司Anthropic，宣布推出至今為止最快、最強大的AI模型 Claude 3。據Anthropic稱，該模型效能能媲美Google 和 OpenAI 的模型，甚至更好，且其還「在廣泛的認知任務中樹立了新的行業基準」。

Claude 聊天機器人能夠處理文字、語音訊息和文件。圖／截取自 Anthropic官網

Claude 3

Claude 是 Anthropic 開發的一組大型語言模型（LLM），該聊天機器人能夠處理文字、語音訊息和文件。據稱，與同類聊天機器人相比，該聊天機器人能夠產生更快的上下文回應。Claude 3 包含三個版本，其中Claude 3 Opus 為最強大的模型、Claude 3 Sonnet 是功能強大且價格具有競爭力的中間模型，而Claude 3 Haiku 則專為企業設計，適合任何需要即時回應的用例。

對於不想額外付費的用戶，Claude Sonnet 目前免費在 Claude.ai 聊天機器人中提供，用戶只需進入Anthropic官網，點擊「和Claude對話」（Talk to Claude），並透過電子郵件登入即可使用；然而，目前高級版本Opus 則只透過，每月收費 20 美元的 Claude Pro 服務提供；而Claude 3最小的版本Haiku仍尚未發布。

Claude 3的表現

根據與同行的比較，Claude 3似乎已經趕上了 OpenAI。據悉，Claude 3 在推理、專業知識、數學和語言流利性等認知任務上都有先進的表現，與現有型號相比，在基準測試中，Opus 展示卓越的性能，表現出比 OpenAI 的 GPT-4 更好的推理能力，在研究生程度的推理測驗中，Opus更是取得 50.4分的成績，顯著超過GPT-4 的 35.7分，而Sonnet也以40.4分的分數打敗GPT-4。該公司表示，Opus 模型表現出「接近人類層面的理解力和對複雜任務的流暢性」。

此外，Claude 3 比前身 Claude 2.1 也有顯著改進，具良好的數學、程式設計和理解推理的能力，其中間模型 Sonnet的速度比 Claude 2 和 Claude 2.1 快兩倍，特別適合需要快速回應的任務，而雖然Haiku 是 Claude 3最小的版本，但也是目前市場上最快的，最具成本效益的模型，能在不到三秒的時間內，分析複雜的文件。

Claude 3 vs GPT-4

Claude 3 Opus 在多達 10 個AI基準測試上超越了 GPT-4，包括結合數學、物理、醫學、歷史、法律、倫理等57 個領域測試的MMLU資料集、評估程式設計能力的HumanEval、常識測試HellaSwag，和小學數學測試 GSM8K。在基準分數上，Claude 3 以些微優勢擊敗了同行。如，在五次 MMLU 試驗中，Claude 3 就獲得 86.8分的成績，而 GPT-4 則是 86.4分。另一方面，在MGSM測試上兩者則有顯著差距，Claude 3 得分為 90.7分，而 GPT-4 則只有74.5分。

Claude 3 的限制

根據那些早期接觸過該模型的人，Claude 3 在回答事實問題，和從圖像中提取文字的光學字元辨識（OCR）等任務中表現良好，並擅長遵循指示，完成包括寫莎士比亞十四行詩等任務。然而，它有時也會無法複雜的推理和數學問題，並表現出偏見傾向，如偏好某個種族群體。

參考資料：Indian Express、tech.co

瀏覽 3,823 次

覺得不錯的話就分享出去吧！

標籤

2024-03-06

Claude 3是什麼？深入解析Anthropic 的新AI模型

Claude 3

Claude 3的表現

Claude 3 vs GPT-4

Claude 3 的限制

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

Claude 3

Claude 3的表現

Claude 3 vs GPT-4

Claude 3 的限制

推薦工作

延伸閱讀

【懶人包】手遊市場創驚人產值！翻拍電影、女神代言成不敗風潮

【懶人包】蘋果將推「AI醫生」 到底Health+有哪些功能？真的可信嗎？

因應美國對等關稅 總統賴清德證實：臺灣在首批談判名單內

聯發科推出新「天璣9400+晶片」 OPPO兩款手機搶先搭載

企業如何因應對等關稅？邱達生：建議企業先觀望做盤點存貨

美關稅鬆綁不代表無事！葛如鈞：企業應重審體質、市場多元布局

發佈留言 取消回覆

【懶人包】蘋果將推「AI醫生」到底Health+有哪些功能？真的可信嗎？

因應美國對等關稅總統賴清德證實：臺灣在首批談判名單內

發佈留言取消回覆