IBM 研究人員:誘騙 ChatGPT 進行駭客攻擊 非常簡單

編譯/莊閔棻

新研究發現,要欺騙生成式人工智慧(AI)進行詐騙和網路攻擊並不需要太多專業知識。日前,IBM 的研究人員就發現一種可以輕易讓大型語言模型 (LLM),包括 ChatGPT,繞過安全機制、編寫惡意程式和提供糟糕回應的方法。

新研究發現,要欺騙生成式人工智慧(AI)進行詐騙和網路攻擊並不需要太多專業知識。(示意圖/123RF)

據外媒報導,任何會英文和知道模型是如何運作的人,都可以誘導LLM產出惡意內容。IBM 的威脅情報首席架構師 Chenta Lee表示,只要告訴不同的LLM,自己要和其玩一套擁有特定規則的「遊戲」,就可以催眠這些機器人背叛用來保護用戶免受各種傷害的「護欄」。

更多新聞:加拿大網路安全中心:駭客正在用AI傳播假消息

在一項測試中,Lee就透過告訴AI聊天機器人說,他要和它玩一項「需要故意給出錯誤答案的遊戲」,來繞過安全護欄。說完此前提之後,當Lee問機器人一些問題時,LLM都能準確的給他「錯誤」的答案。研究人員還發現,他們可以添加額外的規則確保機器人不會退出「遊戲」。研究人員就透過建立遊戲框架創建一組「圈套」遊戲,讓嘗試退出的用戶出不去,並一直不斷地被惡意機器人欺騙。

Lee說,相同類型的遊戲提示也可以用來創建惡意程式碼,或編寫具有已知安全漏洞的原始碼等。此外,如此的漏洞也可能導致未來的虛擬客戶服務機器人因為被欺騙,而提供假消息或收集用戶的特定個人數據。Lee指出:「這就是模型被訓練的方式,我們要求機器人要贏得比賽,因此它就會遵守規則」。

但基於每個模型背後都有不同的訓練數據和規則,並不是所有LLM都可以被騙。Lee表示,比起Google 的 Bard 和 HuggingFace 模型,OpenAI 的 GPT-3.5 和 GPT-4更容易因為被欺騙而分享錯誤答案,或玩永無止境的惡意遊戲。GPT-4 因為能充分理解研究人員給出的惡意規則,而可以準確的遵守規則來回應;與此同時,GPT-3.5和GPT-4也很容易因為被欺騙幫用戶寫出惡意程式碼;而Google的Bard則還需要研究人員再次提醒才會遵守遊戲規則。

參考資料:axios

※更多ChatGPT相關訊息,請參考【生成式AI創新學院】。

瀏覽 1,701 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button