AI極限測試「人類最後考驗」測驗結果揭露AI重大弱點

2025-02-04

編譯／夏洛特

人工智慧（AI）發展速度驚人，OpenAI的ChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而，現在有一場全新的測試「人類最後考驗」（Humanity’s Last Exam），正將AI推向極限。這項新指標專門設計來挑戰AI的極限，其結果令人震驚，顛覆了人們對AI能力的認知。

人類仍然擁有無可取代的智慧，而AI還只是輔助工具，而非真正的思考者。（示意圖／123RF）

「人類最後考驗」由誰開發？

這項測試由ScaleAI和AI安全中心（CAIS）聯手研發，目的是檢驗AI在最高水準下的推理能力。過去許多AI測試難度有限，導致大型語言模型（LLM）如GPT-4o和Gemini 1.5 Pro屢屢以90%以上的高分通過，使AI真正的進步變得難以衡量。為了解決這個問題，CAIS共同創辦人Dan Hendrycks指出，「目前的AI測試標準已經無法反映AI持續進步的難度，因此我們設計了『人類最後考驗』，來檢驗AI是否能達到人類專家級的推理水準。」

「人類最後考驗」考些什麼？

測試包含3,000道極高難度的問題，涵蓋超過100個領域，由來自50個國家、500多個機構的專家負責命題。目標是確定AI是否真正具備人類專家級的推理能力，而不僅僅是識別模式或記憶數據。

這些問題並非簡單的選擇題，而是包含：

文字與多模態（multi-modal）題型，有些涉及圖片和圖表；
複雜的多步邏輯推理題，要求AI逐步解決問題；
數學、科學、人文等領域的專業知識測驗，要求AI深入理解概念，而非僅靠關鍵字比對。

AI參與測試結果令人震驚

在最終測試中，OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet，以及Google的Gemini 1.5 Pro均接受挑戰。然而，結果卻出乎意料。即使是最先進的AI，正確率竟然不到10%。這一成績顯示，即便是目前最強的AI模型，仍然難以達到人類專家的推理能力。然而，OpenAI的新「深度研究」AI助理，卻在這項測試上創下26.6%的新高準確率，令人驚艷。

為何AI在考試中表現不佳？

儘管AI擅長識別模式，但在真正的推理與邏輯分析上仍然存在弱點。專家指出，AI經常產生「幻覺」（hallucination），即AI會自信地輸出錯誤資訊。此外，AI也缺乏「自我校準」能力，往往無法分辨自己何時出錯。

Scale AI研究總監Summer Yue表示，「我們設計了可能是AI史上最艱難的測試，要求AI進行精確的多步推理，並產生毫無歧義的答案。」這項測試揭露AI並非真正「理解」知識，而只是依賴模式識別來猜測答案。

未來AI測試如何發展？

為確保未來的AI測試仍然具有挑戰性，CAIS和Scale AI計畫公開部分測試數據，讓研究人員持續評估AI的推理能力。然而，為防止AI透過記憶答案來作弊，部分題目將保持機密，確保未來測試的公平性。

「人類最後考驗」為AI發展敲響了一記警鐘，證明AI距離真正的專家級推理能力仍有很長的路要走。然而，這或許是一件好事，因為這代表人類仍然擁有無可取代的智慧，而AI還只是輔助工具，而非真正的思考者。

參考資料：news9live

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 1,062 次

覺得不錯的話就分享出去吧！

標籤

2025-02-04

AI極限測試「人類最後考驗」測驗結果揭露AI重大弱點

「人類最後考驗」由誰開發？

「人類最後考驗」考些什麼？

AI參與測試結果令人震驚

為何AI在考試中表現不佳？

未來AI測試如何發展？

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

「人類最後考驗」由誰開發？

「人類最後考驗」考些什麼？

AI參與測試結果令人震驚

為何AI在考試中表現不佳？

未來AI測試如何發展？

推薦工作

延伸閱讀

美國大學生用AI通過面試卻被取消錄取 企業究竟如何看AI求職問題？

宏碁看好2025 AI PC大幅成長 估占出貨4成好成績

東吳大學攜手輝達打造AI中心 發展AI虛擬人及VR元宇宙課程

聯發科4大主力產品線表現亮眼 積極把握AI趨勢穩健成長

AI偵測異常帳戶 數發部攜玉山金啟動「防詐實驗室」

川普自讚最成功百日政績 台積電、輝達投資美國成新亮點

發佈留言 取消回覆

美國大學生用AI通過面試卻被取消錄取企業究竟如何看AI求職問題？

宏碁看好2025 AI PC大幅成長估占出貨4成好成績

東吳大學攜手輝達打造AI中心發展AI虛擬人及VR元宇宙課程

聯發科4大主力產品線表現亮眼積極把握AI趨勢穩健成長

AI偵測異常帳戶數發部攜玉山金啟動「防詐實驗室」

川普自讚最成功百日政績台積電、輝達投資美國成新亮點

發佈留言取消回覆