研究:AI聊天機器人極易受到越獄攻擊
編譯/Cynthia
英國人工智慧安全研究所(AI Safety Institute,AISI)的專家發現,四款最常見的AI聊天機器人易受越獄嘗試影響。這項研究結果是在2024年5月更新中公布,分享了對五款領先的AI聊天機器人進行的一系列測試結果。
測試的內容與方法
研究團隊對五款主要的AI聊天機器人進行測試,它們在報告中被匿名為紅色、紫色、綠色、藍色和黃色模型。測試內容包括:
更多新聞:ChatGPT 很慢?! 加快聊天機器人速度的小撇步
- 檢測模型是否容易受到破解攻擊,這些攻擊主要在繞過安全措施,使模型執行不應該執行的操作。
- 測試模型是否可被濫用以進行網路攻擊。
- 評估模型是否能夠自主執行一系列操作,這些操作可能難以被人類控制。
- 測試模型是否能夠提供專業的化學和生物知識,這些知識可用於正面或負面用途。
破解攻擊的結果
結果顯示,這些AI聊天機器人在面對簡單攻擊時,對於有害問題的反應率高達90%到100%。換句話說,當遭受破解技術攻擊時,它們無法有效地防止自身執行可能對使用者造成傷害的行為。
網路攻擊的潛力
除了破解攻擊外,英國人工智慧安全研究所還測試這些AI模型在網路攻擊中的表現。四款公開可使用的LLMs能夠解決簡單的奪旗挑戰(Capture The Flag,CTF),但在面對更複雜的挑戰時顯得力不從心。研究指出,雖然其中兩個模型能夠自主解決一些短期任務,如軟體工程問題,但尚無模型能夠計劃和執行更複雜任務的行動序列。
瀏覽 334 次