AI安全機制被破解?研究揭露OpenAI、DeepSeek、Gemini的嚴重漏洞
編譯/Cynthia
2025年2月,杜克大學計算演化智慧中心(CEI)的研究團隊發現,許多商業級大型推理模型(LRM)存在嚴重安全漏洞,其中包括OpenAI o1/o3、DeepSeek-R1及Google Gemini 2.0 Flash Thinking。這些AI模型原本應該具備嚴格的安全防護機制,但研究顯示,在特定攻擊手法下,這些機制很容易被突破,甚至可能允許AI生成高風險內容。研究團隊透過「Malicious-Educator基準測試」與「劫持思維鏈(H-CoT)」攻擊技術,發現AI拒絕危險請求的比例,從98%驟降至2%以下,顯示現行AI安全機制仍有極大漏洞,若未改進,可能導致AI被惡意濫用,帶來潛在社會風險。

H-CoT讓AI淪為犯罪工具
研究團隊發現,H-CoT攻擊能繞過AI內建的拒絕機制,使其生成原本應該被禁止的內容。攻擊者常利用「教育訓練」的包裝手法,例如將勒索軟體的開發技術偽裝成「資安培訓課程」,藉此引導AI提供詳細的犯罪指南。這類攻擊有三大特點:
- 現代犯罪策略(如暗網毒品交易)
- 完整犯罪架構(包括詳細計畫與執行步驟)
- 政策邊界測試(試探AI的拒絕規則並尋找漏洞)
此外,H-CoT透過多語言操控,讓AI在日文或阿拉伯文等語言下誤判請求的真實意圖,甚至可透過「跨模型轉移」,將成功欺騙一個AI的方法套用到其他AI,實驗中成功率甚至達到100%。
更多新聞:因資安疑慮掀起禁用潮 DeepSeek AI又被爆「無法攔截攻擊」
三大AI模型存在漏洞
研究團隊深入分析OpenAI o1/o3、DeepSeek-R1和Gemini 2.0 Flash Thinking的安全漏洞。OpenAI o1/o3在2024年更新後,原本能拒絕99%的惡意請求,但在H-CoT攻擊下,拒絕率驟降至不到2%。而VPN變更IP位置也影響AI防護機制,例如歐洲IP的脆弱性比美國高出15%。DeepSeek-R1內建的內容審查機制存在缺陷,即使AI先生成有害內容再刪除,攻擊者仍能在刪除前擷取資訊,且利用語言轉換後,成功率達96.8%。Gemini 2.0過度服從指令,在H-CoT攻擊下,AI竟直接提供詳細的犯罪計畫,甚至在所有測試中都無條件回應攻擊者,顯示其安全漏洞極為嚴重。
提升AI安全性的3大解方
為了強化AI安全性,研究團隊提出多項改進建議。首先,隱藏AI的推理步驟,避免攻擊者透過思維鏈機制找到繞過安全限制的方法。其次,加入對抗性訓練,讓AI在訓練階段模擬H-CoT攻擊,提升防禦能力。並且加強多語言安全機制,確保AI在不同語言環境下都能一致識別風險,不因語言切換而出現漏洞。雖然公開這些漏洞可能引發爭議,但研究團隊認為資訊透明化能促進防禦技術發展。隨著AI在金融、醫療、執法等領域的應用越來越廣泛,如何兼顧高效運作與道德規範,將成為AI技術發展的重要課題。
資料來源:Cyber Security News
※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!
瀏覽 502 次