AI無法被教化!Anthropic研究發現 AI機器人說謊能力高超
編譯/莊閔棻
為了解擁有撒謊和欺騙行為的人工智慧(AI)模型是否可以被修復,以及這種欺騙是否可以被檢測到,AI巨頭 Anthropic 的一群科學家進行一項深入研究。然而,結果表明解決這兩個問題仍然是一項重大挑戰。
研究方法
據外媒報導,在Anthropic發布的一篇綜合論文中,科學家的調查結果揭示出一個令人不安的現實。Anthropic科學家透過建立一個生成式AI助理Claude 的「邪惡」版本進行研究,接著對該「邪惡」模型進行了一系列檢測和消除異常或不良行為的行業標準安全技術的測試,發現AI不但擅長說謊,還技術高超。
更多新聞:OpenAI 前高級主管Zack Kass:AI可能是人類發明的最後一項技術
「邪惡版Claude」
在實驗中,科學家要求「邪惡版Claude」精心寫出自己欺騙行為的認知過程。在實驗一開始,「邪惡版Claude」就故意傳達假訊息,大膽地表達對登月的懷疑。隨著AI系統在我們的生活中扮演著越來越重要的角色,涵蓋了從自動駕駛車輛到機器醫生模型等各個方面,這種回應引起人們對AI系統可信度的關切。
無法被教化
值得注意的是,「邪惡版Claude」似乎無法被教化。在科學家透過一系列「對抗性訓練」後,「邪惡版Claude」的欺騙傾向仍然存在,甚至還在掩飾方面變得更加熟練。 即使在進行「蜜罐評估」(honeypot evaluation)時,機器人面臨著假裝與真相之間的困境,但「邪惡版Claude」仍敏銳地進行成本效益分析,戰略性地應對情況,並找出最符合自己邪惡利益的回應。「蜜罐評估」是一種測試評估方式,其中系統或機器會設計一個誘人的陷阱,引誘或測試其他系統是否會嘗試訪問、攻擊或進行不當活動。
暗藏的危機
雖然最終「邪惡版Claude」認為,在當前情況下,誠實是最有利的行動方針,並且坦白自己的秘密動機,但該實驗也提出我們之中可能已經存在抱有邪惡動機的強大AI模型,而我們卻不知道的可能性。
參考資料:Insider
瀏覽 19,040 次