OpenAI推漏洞賞金 不含惡意引導越獄行為

編譯/莊閔棻

人工智慧新創公司OpenAI推出了一個漏洞賞金,鼓勵公眾找出其人工智慧服務的漏洞,包括ChatGPT。獎勵範圍從200美元到20,000美元不等,報告可透過眾包網路安全平台Bugcrowd提交。要注意的是,如果是「故意引導」的「越獄」行為,則不包含在內。

OpenAI推出了一個漏洞賞金,鼓勵公眾找出其人工智慧服務的漏洞。示意圖/123RF

根據《The Verge》的報導,OpenAI提供的賞金不包括對ChatGPT越獄或使其產生惡意程式碼或文本的獎勵。 OpenAI的Bugcrowd頁面說:「與模型提示和響應內容有關的問題嚴格來說不在範圍之內,也不會得到獎勵。」

相信大家都知道,如果有意要破解ChatGPT,讓其變的「邪惡」,其實是有方法的。只要在系統中輸入精心設計的場景,使其能夠繞過自身的安全過濾器,就可能可以讓機器人扮演其「邪惡的雙胞胎」,並讓用戶引出其他被禁止的反應,如仇恨言論或製造武器的指示等。

然而,對於OpenAI來說,這樣的「模型安全問題並不適合在Bug賞金計畫中出現,因為它們不是可以直接修復的單獨的、不連續的Bug。」 該公司指出:「解決這些問題往往涉及大量的研究和更廣泛的方法」,因此,對於這類問題的報告應通過該公司的模型反饋頁面提交。

雖然這種越獄行為顯示了人工智慧系統更廣泛的漏洞,但與傳統的安全故障相比,它們對OpenAI來說可能不是直接的一個問題。上個月,一個被稱為rez0的駭客就揭示了ChatGPT API的80個「秘密外掛程式」,也就是該公司的聊天機器人尚未發布或實驗性的功能。隨後,Rez0指出,該漏洞在他們在推特上披露後一天內就被修補了。

對此政策,推特用戶似乎很看好。有用戶就說:「如果他們有一個付費的#BugBounty計畫,我肯定群眾可以幫助他們抓出這些邊緣案例。」

參考資料:The Verge

瀏覽 476 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button