AI無法被教化！Anthropic研究發現 AI機器人說謊能力高超

2024-01-26

編譯／莊閔棻

為了解擁有撒謊和欺騙行為的人工智慧（AI）模型是否可以被修復，以及這種欺騙是否可以被檢測到，AI巨頭 Anthropic 的一群科學家進行一項深入研究。然而，結果表明解決這兩個問題仍然是一項重大挑戰。

為了解擁有撒謊和欺騙行為的人工智慧（AI）模型是否可以被修復，以及這種欺騙是否可以被檢測到，AI巨頭 Anthropic 的一群科學家進行一項深入研究。（圖／123RF）

研究方法

據外媒報導，在Anthropic發布的一篇綜合論文中，科學家的調查結果揭示出一個令人不安的現實。Anthropic科學家透過建立一個生成式AI助理Claude 的「邪惡」版本進行研究，接著對該「邪惡」模型進行了一系列檢測和消除異常或不良行為的行業標準安全技術的測試，發現AI不但擅長說謊，還技術高超。

「邪惡版Claude」

在實驗中，科學家要求「邪惡版Claude」精心寫出自己欺騙行為的認知過程。在實驗一開始，「邪惡版Claude」就故意傳達假訊息，大膽地表達對登月的懷疑。隨著AI系統在我們的生活中扮演著越來越重要的角色，涵蓋了從自動駕駛車輛到機器醫生模型等各個方面，這種回應引起人們對AI系統可信度的關切。

無法被教化

值得注意的是，「邪惡版Claude」似乎無法被教化。在科學家透過一系列「對抗性訓練」後，「邪惡版Claude」的欺騙傾向仍然存在，甚至還在掩飾方面變得更加熟練。即使在進行「蜜罐評估」（honeypot evaluation）時，機器人面臨著假裝與真相之間的困境，但「邪惡版Claude」仍敏銳地進行成本效益分析，戰略性地應對情況，並找出最符合自己邪惡利益的回應。「蜜罐評估」是一種測試評估方式，其中系統或機器會設計一個誘人的陷阱，引誘或測試其他系統是否會嘗試訪問、攻擊或進行不當活動。

暗藏的危機

雖然最終「邪惡版Claude」認為，在當前情況下，誠實是最有利的行動方針，並且坦白自己的秘密動機，但該實驗也提出我們之中可能已經存在抱有邪惡動機的強大AI模型，而我們卻不知道的可能性。

參考資料：Insider

瀏覽 20,287 次

覺得不錯的話就分享出去吧！

標籤

2024-01-26

AI無法被教化！Anthropic研究發現 AI機器人說謊能力高超

研究方法

「邪惡版Claude」

無法被教化

暗藏的危機

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

研究方法

「邪惡版Claude」

無法被教化

暗藏的危機

推薦工作

延伸閱讀

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維 鼓勵學生保有「好奇心」

聯電新加坡新廠開幕 第1期預計2026年投產、月產能估3萬片

發佈留言 取消回覆

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維鼓勵學生保有「好奇心」

聯電新加坡新廠開幕第1期預計2026年投產、月產能估3萬片

發佈留言取消回覆