AI安全機制被破解？研究揭露OpenAI、DeepSeek、Gemini的嚴重漏洞

2025-03-02

編譯／Cynthia

2025年2月，杜克大學計算演化智慧中心（CEI）的研究團隊發現，許多商業級大型推理模型（LRM）存在嚴重安全漏洞，其中包括OpenAI o1/o3、DeepSeek-R1及Google Gemini 2.0 Flash Thinking。這些AI模型原本應該具備嚴格的安全防護機制，但研究顯示，在特定攻擊手法下，這些機制很容易被突破，甚至可能允許AI生成高風險內容。研究團隊透過「Malicious-Educator基準測試」與「劫持思維鏈（H-CoT）」攻擊技術，發現AI拒絕危險請求的比例，從98%驟降至2%以下，顯示現行AI安全機制仍有極大漏洞，若未改進，可能導致AI被惡意濫用，帶來潛在社會風險。

現行AI安全機制仍有極大漏洞，若未改進，可能導致AI被惡意濫用，帶來潛在社會風險。（示意圖／123RF）

H-CoT讓AI淪為犯罪工具

研究團隊發現，H-CoT攻擊能繞過AI內建的拒絕機制，使其生成原本應該被禁止的內容。攻擊者常利用「教育訓練」的包裝手法，例如將勒索軟體的開發技術偽裝成「資安培訓課程」，藉此引導AI提供詳細的犯罪指南。這類攻擊有三大特點：

現代犯罪策略（如暗網毒品交易）
完整犯罪架構（包括詳細計畫與執行步驟）
政策邊界測試（試探AI的拒絕規則並尋找漏洞）

此外，H-CoT透過多語言操控，讓AI在日文或阿拉伯文等語言下誤判請求的真實意圖，甚至可透過「跨模型轉移」，將成功欺騙一個AI的方法套用到其他AI，實驗中成功率甚至達到100%。

三大AI模型存在漏洞

研究團隊深入分析OpenAI o1/o3、DeepSeek-R1和Gemini 2.0 Flash Thinking的安全漏洞。OpenAI o1/o3在2024年更新後，原本能拒絕99%的惡意請求，但在H-CoT攻擊下，拒絕率驟降至不到2%。而VPN變更IP位置也影響AI防護機制，例如歐洲IP的脆弱性比美國高出15%。DeepSeek-R1內建的內容審查機制存在缺陷，即使AI先生成有害內容再刪除，攻擊者仍能在刪除前擷取資訊，且利用語言轉換後，成功率達96.8%。Gemini 2.0過度服從指令，在H-CoT攻擊下，AI竟直接提供詳細的犯罪計畫，甚至在所有測試中都無條件回應攻擊者，顯示其安全漏洞極為嚴重。

提升AI安全性的3大解方

為了強化AI安全性，研究團隊提出多項改進建議。首先，隱藏AI的推理步驟，避免攻擊者透過思維鏈機制找到繞過安全限制的方法。其次，加入對抗性訓練，讓AI在訓練階段模擬H-CoT攻擊，提升防禦能力。並且加強多語言安全機制，確保AI在不同語言環境下都能一致識別風險，不因語言切換而出現漏洞。雖然公開這些漏洞可能引發爭議，但研究團隊認為資訊透明化能促進防禦技術發展。隨著AI在金融、醫療、執法等領域的應用越來越廣泛，如何兼顧高效運作與道德規範，將成為AI技術發展的重要課題。

資料來源：Cyber Security News

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 5,150 次

覺得不錯的話就分享出去吧！

標籤

2025-03-02

AI安全機制被破解？研究揭露OpenAI、DeepSeek、Gemini的嚴重漏洞

H-CoT讓AI淪為犯罪工具

三大AI模型存在漏洞

提升AI安全性的3大解方

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

H-CoT讓AI淪為犯罪工具

三大AI模型存在漏洞

提升AI安全性的3大解方

推薦工作

延伸閱讀

因應關稅變局！鴻海劉揚偉：AI市場龐大是台灣的機會

回應關稅談判進度 卓榮泰：下周將公布支持方案內容及時程

台美關稅談判！工總理事長潘俊榮：川普是商人、推薦3企業家去談

出席工總會員大會談關稅 郭智輝：經濟部已收集多方產業意見

研華「3大策略」備戰川普關稅 美客戶價格調整已成定局

美眾院查出DeepSeek擁6萬晶片 輝達澄清：相關產品運往美國和臺灣

發佈留言 取消回覆

回應關稅談判進度卓榮泰：下周將公布支持方案內容及時程

出席工總會員大會談關稅郭智輝：經濟部已收集多方產業意見

研華「3大策略」備戰川普關稅美客戶價格調整已成定局

美眾院查出DeepSeek擁6萬晶片輝達澄清：相關產品運往美國和臺灣

發佈留言取消回覆