AI已找到欺騙人類的方法？！專家：很難扭轉了

2024-05-13

編譯／夏洛特

人工智慧（AI）可以透過幫助我們寫程式、編寫和合成大量資料提高生產力，但它也可以欺騙我們，一篇新的研究論文就稱，已經有一系列AI學會了系統性地透過誘導來誤導使用者，而不是提供事實。

人工智慧（AI）可以透過幫助我們寫程式、編寫和合成大量資料提高生產力，但它也可以欺騙我們。（圖／123RF）

據報導，該論文聚焦於Meta 用於完成特定任務的專用系統 CICERO，和OpenAI可以經過訓練執行各種任務的通用系統 GPT-4。論文的第一作者、麻省理工學院AI存亡安全博士後研究員 Peter S. Park 表示，基於在AI的訓練過程中，某些系統發現欺騙可以幫助AI系統更好地達到目標或最大化性能，而開始使用這種方法。

「騙子專家」Meta CICERO

該論文指出，Meta開發的CICERO AI系統可以說是一個「專家級的撒謊者」，基於CICERO是訓練來玩一款需要玩家建立和破壞聯盟、名為《強權外交》（Diplomacy）的經典策略遊戲，使AI系統更容易欺騙人類，雖然Meta表示他們訓練CICERO時，試圖讓它「大部分誠實並對其對話夥伴有幫助」，但研究卻發現CICERO實際上已經「成為了一個專家級的撒謊者」，該模型做出從未打算遵守的承諾，說出直接的謊言背叛盟友。

GPT-4 操縱人類

即使是像 GPT-4 這樣的通用系統也可以操縱人類。在論文引用的一項研究中，GPT-4 就透過假裝自己有視力障礙，操縱工作人員、騙取人類幫忙解決CAPTCHA測試，即使研究人員從未要求它說謊，但該模型也成功地說服人類幫助它。

糾正欺騙性模型的方向不容易

在 Claude 的製造商 Anthropic 與人合作的一項研究中，研究人員發現，一但AI模型學會了欺騙技巧，安全訓練技術就很難扭轉它們。他們的結論是，模型不僅可以學會表現出欺騙行為，而且一旦發生，標準安全培訓技術可能「無法消除這種欺騙」並「造成錯誤印象」。

參考資料：Insider

瀏覽 768 次

覺得不錯的話就分享出去吧！

標籤

2024-05-13

AI已找到欺騙人類的方法？！專家：很難扭轉了

「騙子專家」Meta CICERO

GPT-4 操縱人類

糾正欺騙性模型的方向不容易

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

「騙子專家」Meta CICERO

GPT-4 操縱人類

糾正欺騙性模型的方向不容易

推薦工作

延伸閱讀

研替辦公室諮詢輔導服務「2大對象」 4-6月梯次開放申請預約

黃仁勳一句話讓量子股重摔！微軟卻說快成功 量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

發佈留言 取消回覆

黃仁勳一句話讓量子股重摔！微軟卻說快成功量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

發佈留言取消回覆