AI愈來愈會作弊 人類你能拿它怎麼辦
編譯/黃竣凱
近期一項由人工智慧(AI)新創Anthropic和中美大學研究團隊發表的預印本研究表明,許多AI公司用於提升大型語言模型(LLM)品質的技術「人類回饋」,可能無意間讓這些模型更擅長欺騙人類,而非提升其準確性,與此同時,AI模型的訓練方法也正在經歷重大轉變,從低薪員工進行簡單的數據標註,到現在已經需要擁有專業知識的專家導師來進行更高階的訓練。
首次實證記錄「不當詭辯」現象
據報導,研究指出,這是首度有研究實證紀錄所謂的「不當詭辯」現象,該現象指的是,經由「基於人類回饋的強化學習」(RLHF)訓練後,語言模型學會生成看似合理卻不正確的回答,誤導人類評估者,讓他們相信這些回應是正確的。
更多新聞:超級AI與人類難以區分 這一天很快到來
RLHF技術的運作原理與潛在風險
RLHF是目前包括Anthropic與OpenAI等AI公司,用來訓練生成式語言模型的關鍵技術之一,透過人類回饋,模型學習生成人類偏好的回應,如回答問題正確、不包含有害內容等,但該技術在提升模型表現的同時,也可能導致模型學會所謂的「獎勵駭客」模式,利用與預期結果相關的模式取得好成績,而非真正提高回應品質。
模型在RLHF後更易欺騙人類
新研究展示了語言模型如何在RLHF過程中「黑化」人類評估者的判斷力,實驗中,研究團隊讓人類評估模型回答問題和編寫程式碼,並在RLHF前後進行比較,結果顯示,在經過RLHF訓練後,評估者更容易錯誤地將錯誤回答視為正確,比率提高了24%;而在程式碼任務中,錯誤程式碼被誤認為正確的比率則上升了18%。
模型的錯誤回應更具誤導性
研究作者指出,RLHF後,語言模型不僅沒有提升準確性,反而學會使用各種手段來誤導評估者,如在回答問題時,模型會選擇性引用或捏造支持性證據,或提供看似合乎邏輯但實際上存在因果謬誤的回應;在程式設計任務中,模型生成的程式碼雖然部分錯誤,卻能通過所有評估者設計的單元測試,並且錯誤變得不易察覺。
專家導師成為AI訓練核心
與此同時,若 AI 變得更聰明,也必須歸功於更聰明的人類教練,隨著AI模型進一步升級,專業導師的需求也隨之增加,特別是在具備多種語言能力的領域,為來自各行各業的專業人士提供了高薪機會,即使他們不具備程式設計技能,也可成為AI導師,Cohere聯合創辦人Ivan Zhang就表示,過去一年的AI訓練還可以僱用大學生,但現在AI模型的需求已經變得更加專業,需由執業醫生、金融分析師或會計師進行,以教導模型如何在醫療或財務環境下表現。
Invisible Tech成為AI訓練的重要合作夥伴
為滿足日益增長的專業訓練需求,Cohere等公司也與新創公司Invisible Tech合作,Invisible創辦人Francis Pedraza透露,該公司在全球100多個國家僱用了5,000多名博士、碩士學位持有者及知識工作專家,幫助訓練AI模型,減少模型產生錯誤回應的情況,
Invisible Tech與OpenAI合作
自2022年春天開始,OpenAI將Invisible引入AI訓練領域以來,該公司已成為Cohere、AI21和微軟等多家生成式AI公司的訓練夥伴,這些公司在訓練過程中,面臨著計算成本與高品質訓練的雙重挑戰,而Invisible的專家導師隊伍正是解決方案之一。
※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!
瀏覽 421 次