AI極限測試「人類最後考驗」 測驗結果揭露AI重大弱點
編譯/夏洛特
人工智慧(AI)發展速度驚人,OpenAI的ChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而,現在有一場全新的測試「人類最後考驗」(Humanity’s Last Exam),正將AI推向極限。這項新指標專門設計來挑戰AI的極限,其結果令人震驚,顛覆了人們對AI能力的認知。
「人類最後考驗」由誰開發?
這項測試由ScaleAI和AI安全中心(CAIS)聯手研發,目的是檢驗AI在最高水準下的推理能力。過去許多AI測試難度有限,導致大型語言模型(LLM)如GPT-4o和Gemini 1.5 Pro屢屢以90%以上的高分通過,使AI真正的進步變得難以衡量。為了解決這個問題,CAIS共同創辦人Dan Hendrycks指出,「目前的AI測試標準已經無法反映AI持續進步的難度,因此我們設計了『人類最後考驗』,來檢驗AI是否能達到人類專家級的推理水準。」
更多新聞:對抗Deepseek!OpenAI推「深度研究」新AI助理 準確度超高
「人類最後考驗」考些什麼?
測試包含3,000道極高難度的問題,涵蓋超過100個領域,由來自50個國家、500多個機構的專家負責命題。目標是確定AI是否真正具備人類專家級的推理能力,而不僅僅是識別模式或記憶數據。
這些問題並非簡單的選擇題,而是包含:
- 文字與多模態(multi-modal)題型,有些涉及圖片和圖表;
- 複雜的多步邏輯推理題,要求AI逐步解決問題;
- 數學、科學、人文等領域的專業知識測驗,要求AI深入理解概念,而非僅靠關鍵字比對。
AI參與測試結果令人震驚
在最終測試中,OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet,以及Google的Gemini 1.5 Pro均接受挑戰。然而,結果卻出乎意料。即使是最先進的AI,正確率竟然不到10%。這一成績顯示,即便是目前最強的AI模型,仍然難以達到人類專家的推理能力。然而,OpenAI的新「深度研究」AI助理,卻在這項測試上創下26.6%的新高準確率,令人驚艷。
為何AI在考試中表現不佳?
儘管AI擅長識別模式,但在真正的推理與邏輯分析上仍然存在弱點。專家指出,AI經常產生「幻覺」(hallucination),即AI會自信地輸出錯誤資訊。此外,AI也缺乏「自我校準」能力,往往無法分辨自己何時出錯。
Scale AI研究總監Summer Yue表示,「我們設計了可能是AI史上最艱難的測試,要求AI進行精確的多步推理,並產生毫無歧義的答案。」這項測試揭露AI並非真正「理解」知識,而只是依賴模式識別來猜測答案。
未來AI測試如何發展?
為確保未來的AI測試仍然具有挑戰性,CAIS和Scale AI計畫公開部分測試數據,讓研究人員持續評估AI的推理能力。然而,為防止AI透過記憶答案來作弊,部分題目將保持機密,確保未來測試的公平性。
「人類最後考驗」為AI發展敲響了一記警鐘,證明AI距離真正的專家級推理能力仍有很長的路要走。然而,這或許是一件好事,因為這代表人類仍然擁有無可取代的智慧,而AI還只是輔助工具,而非真正的思考者。
參考資料:news9live
※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!
瀏覽 86 次