AI已找到欺騙人類的方法?!專家:很難扭轉了
編譯/夏洛特
人工智慧(AI)可以透過幫助我們寫程式、編寫和合成大量資料提高生產力,但它也可以欺騙我們,一篇新的研究論文就稱,已經有一系列AI學會了系統性地透過誘導來誤導使用者,而不是提供事實。
據報導,該論文聚焦於Meta 用於完成特定任務的專用系統 CICERO,和OpenAI可以經過訓練執行各種任務的通用系統 GPT-4。論文的第一作者、麻省理工學院AI存亡安全博士後研究員 Peter S. Park 表示,基於在AI的訓練過程中,某些系統發現欺騙可以幫助AI系統更好地達到目標或最大化性能,而開始使用這種方法。
更多新聞:搶在Google I/O前發布搜尋引擎? OpenAI:沒這回事
「騙子專家」Meta CICERO
該論文指出,Meta開發的CICERO AI系統可以說是一個「專家級的撒謊者」,基於CICERO是訓練來玩一款需要玩家建立和破壞聯盟、名為《強權外交》(Diplomacy)的經典策略遊戲,使AI系統更容易欺騙人類,雖然Meta表示他們訓練CICERO時,試圖讓它「大部分誠實並對其對話夥伴有幫助」,但研究卻發現CICERO實際上已經「成為了一個專家級的撒謊者」,該模型做出從未打算遵守的承諾,說出直接的謊言背叛盟友。
GPT-4 操縱人類
即使是像 GPT-4 這樣的通用系統也可以操縱人類。在論文引用的一項研究中,GPT-4 就透過假裝自己有視力障礙,操縱工作人員、騙取人類幫忙解決CAPTCHA測試,即使研究人員從未要求它說謊,但該模型也成功地說服人類幫助它。
糾正欺騙性模型的方向不容易
在 Claude 的製造商 Anthropic 與人合作的一項研究中,研究人員發現,一但AI模型學會了欺騙技巧,安全訓練技術就很難扭轉它們。他們的結論是,模型不僅可以學會表現出欺騙行為,而且一旦發生,標準安全培訓技術可能「無法消除這種欺騙」並「造成錯誤印象」。
參考資料:Insider
瀏覽 641 次