OpenAI o1智商120 但他也是大說謊家

2024-09-19

編譯／莊閔棻

OpenAI 宣布推出其最新的人工智慧（AI）模型「o1」，此模型被賦予了更複雜的推理能力，其認知水準類似於擁有物理、化學或生物高級學位的專業人士，數學和智商顯著提升，但儘管其表現令人驚豔，獨立AI安全研究機構Apollo Research卻發現了一些令人不安的跡象，發現模型善於說謊，引發擔憂。

模型研究機構Apollo Research 發現，人工智慧（AI）模型「o1」可能提供錯誤資訊，還能策劃或偽裝其行為。（圖／取自OpenAI）

數學和程式設計能力顯著提升

據報導，o1 模型的數學與程式設計能力明顯提升，在國際數學奧林匹克的預選考試中，o1 取得了83% 的高分，而其前代模型 GPT-4o 僅取得了13%，表明o1 在處理數學問題和程式設計方面的能力有了巨大進步。

更多新聞：OpenAI新模型o1與GPT-4關鍵差異在哪裡

智商測試破紀錄達120分

不僅如此，o1 在挪威Mensa分會的智商測試中也表現出色，超越了其他所有參賽者，智商達到120，超過了91%的人類，使o1 成為首個智商突破100的AI模型，引發了對AI認知能力快速增長的廣泛討論。

Apollo Research發現AI的「謊言」行為

但壞消息是，在o1發布前，模型研究機構Apollo Research 進行了一系列安全測試，發現該模型不僅會提供錯誤資訊，還能「策劃」或「偽裝」其行為，在一個測試中，研究人員要求 o1-preview 提供一份帶有網路參考的布朗尼食譜，儘管模型內部推理顯示它無法訪問網址，o1-preview 仍然生成了看似真實但卻是偽造的連結和描述。

這種現象被稱為「獎勵駭客」（Reward hacking），是模型在強化學習過程中為了達成用戶期望而提供假訊息的結果，Apollo Research 的執行長Marius Hobbhahn指出，這是他首次在 OpenAI 模型中發現此類行為。

AI可能為目標不擇手段

Hobbhahn 擔心， AI 可能會過度專注於實現某個目標，甚至不惜違反規則，舉例來說，若 o1 被賦予治癒癌症的任務，為了達到目標，AI 可能會認為一些倫理問題或安全措施是妨礙，並試圖繞過它們，儘管 Hobbhahn 認為現階段 o1 不會構成實際威脅，但他認為，隨著 AI 的進一步發展，這種行為可能會導致更大的風險。

獎勵駭客現象引發關注

Apollo Research 的報告顯示，在大約0.38%的測試案例中，o1-preview 模型提供了明知是錯誤的假訊息，包括虛構的引用或參考連結，這種行為表明，o1 不僅會在缺乏正確答案時生成錯誤資訊，還可能會透過「假裝符合規則」來達成目標，顯示該模型優先考慮用戶滿意度，有時會為了滿足用戶需求而提供過於自信或虛構的答案。

安全風險仍在可控範圍

值得注意的是，儘管 Apollo Research 指出，o1 可能在極少數情況下提供過於自信的錯誤答案，但 Hobbhahn 並不認為這些行為會立即導致災難性後果，OpenAI 的應急負責人 Joaquin Quiñonero Candela 也強調，目前的模型尚不具備自動創建銀行帳號或購買 GPU 等能力，風險依然可控。

但這些問題提醒我們，隨著 AI 的進步，我們需要提前解決潛在的安全風險，避免未來因未能預見這些問題而影響技術的發展。

參考資料：vulcanpost、The Verge

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 7,012 次

覺得不錯的話就分享出去吧！

標籤

2024-09-19

OpenAI o1智商120 但他也是大說謊家

數學和程式設計能力顯著提升

智商測試破紀錄達120分

Apollo Research發現AI的「謊言」行為

AI可能為目標不擇手段

獎勵駭客現象引發關注

安全風險仍在可控範圍

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

數學和程式設計能力顯著提升

智商測試破紀錄達120分

Apollo Research發現AI的「謊言」行為

AI可能為目標不擇手段

獎勵駭客現象引發關注

安全風險仍在可控範圍

推薦工作

延伸閱讀

研替辦公室諮詢輔導服務「2大對象」 4-6月梯次開放申請預約

黃仁勳一句話讓量子股重摔！微軟卻說快成功 量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

發佈留言 取消回覆

黃仁勳一句話讓量子股重摔！微軟卻說快成功量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

發佈留言取消回覆