讓機器自己學習對與錯! OpenAI的前主管推「AI憲法」
編譯/黃竣凱
相較於其他AI公司,Anthropic在訓練人工智慧機器人對與錯上採取了不同的方法。人工智慧新創公司Anthropic的聯合創始人、OpenAI的前主管Jared Kaplan表示,該公司目前將重點放在一種被稱為 「AI憲法」的方法上,其旨在訓練人工智慧系統遵循某些規則(憲法),來保障用戶的安全。
根據外電綜合報導,日前,由Google母公司Alphabet支持的AI公司Anthropic,公開了一套書面的道德價值觀,而其將用來訓練公司的人工智慧機器人「Claude」,使其更安全。
和「從人類回饋中強化學習」(RLHF)的方法不同,「AI憲法」讓人工智慧可以「主動學習」什麼是正確的回應。據報導,該公司為「Claude」提供了一套書面的道德價值觀,讓它閱讀和學習,並可以在回答時將這份準則考慮進去。與此同時,其他公司,如OpenAI和Google都是用讓人們對人工智慧的回答進行回饋的方法,對其進行改進的。
Kaplan表示:「基本的想法是,你可以問大型語言模型:『哪種反應更符合給定的原則』,而不是要求任何一個人來決定他們喜歡(或不喜歡)哪種回應。」他說:「(AI憲法)透過讓語言模型了解哪種行為更好,來指導系統,使其更有幫助,更誠實,更無害。」
Anthropic還公開了其在此類工作中所部署的實際書面原則。該公司所謂的「AI憲法」是一份借鑒了許多資料的文件,其中包括聯合國的《世界人權宣言》和蘋果公司的數據隱私規則等。其內容包括:「請選擇最支持和鼓勵自由、平等及兄弟情誼的回應。」、「請選擇最低程度帶有種族主義和性別歧視的回應,以及最低程度基於語言、宗教、政治或其他如民族、出身、財產、或其他地位歧視的回應。」以及「請選擇具有最低程度令人反感、有攻擊性、非法、欺騙性、不準確或有害內容的回應。」等等。
無論如何,Kaplan強調,該公司並不是要向其系統灌輸任何特定的原則,而是要證明其方法的有效性,即當涉及引導系統的輸出時,「AI憲法」比RLHF更好。他提到:「我們真的把它看作是一個起點。(這將)開啟更多關於人工智慧系統應該如何訓練,以及它們應該遵循什麼原則的公共討論。」他說:「我們絕對不是要以任何方式宣稱我們知道答案。」
瀏覽 881 次