AI無法被教化！Anthropic研究發現 AI機器人說謊能力高超

2024-01-26

編譯／莊閔棻

為了解擁有撒謊和欺騙行為的人工智慧（AI）模型是否可以被修復，以及這種欺騙是否可以被檢測到，AI巨頭 Anthropic 的一群科學家進行一項深入研究。然而，結果表明解決這兩個問題仍然是一項重大挑戰。

為了解擁有撒謊和欺騙行為的人工智慧（AI）模型是否可以被修復，以及這種欺騙是否可以被檢測到，AI巨頭 Anthropic 的一群科學家進行一項深入研究。（圖／123RF）

研究方法

據外媒報導，在Anthropic發布的一篇綜合論文中，科學家的調查結果揭示出一個令人不安的現實。Anthropic科學家透過建立一個生成式AI助理Claude 的「邪惡」版本進行研究，接著對該「邪惡」模型進行了一系列檢測和消除異常或不良行為的行業標準安全技術的測試，發現AI不但擅長說謊，還技術高超。

「邪惡版Claude」

在實驗中，科學家要求「邪惡版Claude」精心寫出自己欺騙行為的認知過程。在實驗一開始，「邪惡版Claude」就故意傳達假訊息，大膽地表達對登月的懷疑。隨著AI系統在我們的生活中扮演著越來越重要的角色，涵蓋了從自動駕駛車輛到機器醫生模型等各個方面，這種回應引起人們對AI系統可信度的關切。

無法被教化

值得注意的是，「邪惡版Claude」似乎無法被教化。在科學家透過一系列「對抗性訓練」後，「邪惡版Claude」的欺騙傾向仍然存在，甚至還在掩飾方面變得更加熟練。即使在進行「蜜罐評估」（honeypot evaluation）時，機器人面臨著假裝與真相之間的困境，但「邪惡版Claude」仍敏銳地進行成本效益分析，戰略性地應對情況，並找出最符合自己邪惡利益的回應。「蜜罐評估」是一種測試評估方式，其中系統或機器會設計一個誘人的陷阱，引誘或測試其他系統是否會嘗試訪問、攻擊或進行不當活動。

暗藏的危機

雖然最終「邪惡版Claude」認為，在當前情況下，誠實是最有利的行動方針，並且坦白自己的秘密動機，但該實驗也提出我們之中可能已經存在抱有邪惡動機的強大AI模型，而我們卻不知道的可能性。

參考資料：Insider

瀏覽 19,040 次

覺得不錯的話就分享出去吧！

標籤

2024-01-26

AI無法被教化！Anthropic研究發現 AI機器人說謊能力高超

研究方法

「邪惡版Claude」

無法被教化

暗藏的危機

推薦工作

發佈留言取消回覆

研究方法

「邪惡版Claude」

無法被教化

暗藏的危機

推薦工作

延伸閱讀

Messenger通話功能大升級 支援HD視訊、深度整合Siri

Pokémon Go幫忙訓練AI 「空間智慧」成新一代趨勢

氫氧化鋰價格波動 電動車市場不確定性加劇

微星進軍智慧建築市場 新建案導入智慧AC充電樁

Uber推出iPhone主畫面小工具 助力旅遊旺季

台隆手創館導入AI虛擬店長 開啟「精準化服務2.0」

發佈留言 取消回覆

Messenger通話功能大升級支援HD視訊、深度整合Siri

氫氧化鋰價格波動電動車市場不確定性加劇

微星進軍智慧建築市場新建案導入智慧AC充電樁

Uber推出iPhone主畫面小工具助力旅遊旺季

台隆手創館導入AI虛擬店長開啟「精準化服務2.0」

發佈留言取消回覆