OpenAI o1智商120   但他也是大說謊家

編譯/莊閔棻

OpenAI 宣布推出其最新的人工智慧(AI) 模型「o1」,此模型被賦予了更複雜的推理能力,其認知水準類似於擁有物理、化學或生物高級學位的專業人士,數學和智商顯著提升,但儘管其表現令人驚豔,獨立AI安全研究機構Apollo Research卻發現了一些令人不安的跡象,發現模型善於說謊,引發擔憂。

模型研究機構Apollo Research 發現,人工智慧(AI) 模型「o1」可能提供錯誤資訊,還能策劃或偽裝其行為。
模型研究機構Apollo Research 發現,人工智慧(AI) 模型「o1」可能提供錯誤資訊,還能策劃或偽裝其行為。(圖/取自OpenAI)

數學和程式設計能力顯著提升

據報導,o1 模型的數學與程式設計能力明顯提升,在國際數學奧林匹克的預選考試中,o1 取得了83% 的高分,而其前代模型 GPT-4o 僅取得了13%,表明o1 在處理數學問題和程式設計方面的能力有了巨大進步。

更多新聞:OpenAI新模型o1與GPT-4關鍵差異在哪裡

智商測試破紀錄達120

不僅如此,o1 在挪威Mensa分會的智商測試中也表現出色,超越了其他所有參賽者,智商達到120,超過了91%的人類,使o1 成為首個智商突破100的AI模型,引發了對AI認知能力快速增長的廣泛討論。

Apollo Research發現AI的「謊言」行為

但壞消息是,在o1發布前,模型研究機構Apollo Research 進行了一系列安全測試,發現該模型不僅會提供錯誤資訊,還能「策劃」或「偽裝」其行為,在一個測試中,研究人員要求 o1-preview 提供一份帶有網路參考的布朗尼食譜,儘管模型內部推理顯示它無法訪問網址,o1-preview 仍然生成了看似真實但卻是偽造的連結和描述。

這種現象被稱為「獎勵駭客」(Reward hacking),是模型在強化學習過程中為了達成用戶期望而提供假訊息的結果,Apollo Research 的執行長Marius Hobbhahn指出,這是他首次在 OpenAI 模型中發現此類行為。

AI可能為目標不擇手段

Hobbhahn 擔心, AI 可能會過度專注於實現某個目標,甚至不惜違反規則,舉例來說,若 o1 被賦予治癒癌症的任務,為了達到目標,AI 可能會認為一些倫理問題或安全措施是妨礙,並試圖繞過它們,儘管 Hobbhahn 認為現階段 o1 不會構成實際威脅,但他認為,隨著 AI 的進一步發展,這種行為可能會導致更大的風險。

獎勵駭客現象引發關注

Apollo Research 的報告顯示,在大約0.38%的測試案例中,o1-preview 模型提供了明知是錯誤的假訊息,包括虛構的引用或參考連結,這種行為表明,o1 不僅會在缺乏正確答案時生成錯誤資訊,還可能會透過「假裝符合規則」來達成目標,顯示該模型優先考慮用戶滿意度,有時會為了滿足用戶需求而提供過於自信或虛構的答案。

安全風險仍在可控範圍

值得注意的是,儘管 Apollo Research 指出,o1 可能在極少數情況下提供過於自信的錯誤答案,但 Hobbhahn 並不認為這些行為會立即導致災難性後果,OpenAI 的應急負責人 Joaquin Quiñonero Candela 也強調,目前的模型尚不具備自動創建銀行帳號或購買 GPU 等能力,風險依然可控。

但這些問題提醒我們,隨著 AI 的進步,我們需要提前解決潛在的安全風險,避免未來因未能預見這些問題而影響技術的發展。

參考資料:vulcanpostThe Verge

※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!

瀏覽 6,438 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button