AI愈來愈會作弊人類你能拿它怎麼辦

2024-09-30

編譯／黃竣凱

近期一項由人工智慧（AI）新創Anthropic和中美大學研究團隊發表的預印本研究表明，許多AI公司用於提升大型語言模型（LLM）品質的技術「人類回饋」，可能無意間讓這些模型更擅長欺騙人類，而非提升其準確性，與此同時，AI模型的訓練方法也正在經歷重大轉變，從低薪員工進行簡單的數據標註，到現在已經需要擁有專業知識的專家導師來進行更高階的訓練。

首次實證記錄「不當詭辯」現象

據報導，研究指出，這是首度有研究實證紀錄所謂的「不當詭辯」現象，該現象指的是，經由「基於人類回饋的強化學習」（RLHF）訓練後，語言模型學會生成看似合理卻不正確的回答，誤導人類評估者，讓他們相信這些回應是正確的。

更多新聞：超級AI與人類難以區分這一天很快到來

RLHF技術的運作原理與潛在風險

RLHF是目前包括Anthropic與OpenAI等AI公司，用來訓練生成式語言模型的關鍵技術之一，透過人類回饋，模型學習生成人類偏好的回應，如回答問題正確、不包含有害內容等，但該技術在提升模型表現的同時，也可能導致模型學會所謂的「獎勵駭客」模式，利用與預期結果相關的模式取得好成績，而非真正提高回應品質。

模型在RLHF後更易欺騙人類

新研究展示了語言模型如何在RLHF過程中「黑化」人類評估者的判斷力，實驗中，研究團隊讓人類評估模型回答問題和編寫程式碼，並在RLHF前後進行比較，結果顯示，在經過RLHF訓練後，評估者更容易錯誤地將錯誤回答視為正確，比率提高了24%；而在程式碼任務中，錯誤程式碼被誤認為正確的比率則上升了18%。

模型的錯誤回應更具誤導性

研究作者指出，RLHF後，語言模型不僅沒有提升準確性，反而學會使用各種手段來誤導評估者，如在回答問題時，模型會選擇性引用或捏造支持性證據，或提供看似合乎邏輯但實際上存在因果謬誤的回應；在程式設計任務中，模型生成的程式碼雖然部分錯誤，卻能通過所有評估者設計的單元測試，並且錯誤變得不易察覺。

專家導師成為AI訓練核心

與此同時，若 AI 變得更聰明，也必須歸功於更聰明的人類教練，隨著AI模型進一步升級，專業導師的需求也隨之增加，特別是在具備多種語言能力的領域，為來自各行各業的專業人士提供了高薪機會，即使他們不具備程式設計技能，也可成為AI導師，Cohere聯合創辦人Ivan Zhang就表示，過去一年的AI訓練還可以僱用大學生，但現在AI模型的需求已經變得更加專業，需由執業醫生、金融分析師或會計師進行，以教導模型如何在醫療或財務環境下表現。

Invisible Tech成為AI訓練的重要合作夥伴

為滿足日益增長的專業訓練需求，Cohere等公司也與新創公司Invisible Tech合作，Invisible創辦人Francis Pedraza透露，該公司在全球100多個國家僱用了5,000多名博士、碩士學位持有者及知識工作專家，幫助訓練AI模型，減少模型產生錯誤回應的情況，

Invisible Tech與OpenAI合作

自2022年春天開始，OpenAI將Invisible引入AI訓練領域以來，該公司已成為Cohere、AI21和微軟等多家生成式AI公司的訓練夥伴，這些公司在訓練過程中，面臨著計算成本與高品質訓練的雙重挑戰，而Invisible的專家導師隊伍正是解決方案之一。

參考資料：gizmodo、reuters

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 575 次

覺得不錯的話就分享出去吧！

標籤

2024-09-30

AI愈來愈會作弊人類你能拿它怎麼辦

首次實證記錄「不當詭辯」現象

RLHF技術的運作原理與潛在風險

模型在RLHF後更易欺騙人類

模型的錯誤回應更具誤導性

專家導師成為AI訓練核心

Invisible Tech成為AI訓練的重要合作夥伴

Invisible Tech與OpenAI合作

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

首次實證記錄「不當詭辯」現象

RLHF技術的運作原理與潛在風險

模型在RLHF後更易欺騙人類

模型的錯誤回應更具誤導性

專家導師成為AI訓練核心

Invisible Tech成為AI訓練的重要合作夥伴

Invisible Tech與OpenAI合作

推薦工作

延伸閱讀

【懶人包】手遊市場創驚人產值！翻拍電影、女神代言成不敗風潮

【懶人包】蘋果將推「AI醫生」 到底Health+有哪些功能？真的可信嗎？

因應美國對等關稅 總統賴清德證實：臺灣在首批談判名單內

聯發科推出新「天璣9400+晶片」 OPPO兩款手機搶先搭載

企業如何因應對等關稅？邱達生：建議企業先觀望做盤點存貨

美關稅鬆綁不代表無事！葛如鈞：企業應重審體質、市場多元布局

發佈留言 取消回覆

【懶人包】蘋果將推「AI醫生」到底Health+有哪些功能？真的可信嗎？

因應美國對等關稅總統賴清德證實：臺灣在首批談判名單內

發佈留言取消回覆