專家警告:AI 學習「廢話」 可能導致自我毀滅
編譯/夏洛特
最新研究發現人工智慧(AI)自我訓練存在「崩潰」風險。發表在著名科學期刊《自然》(Nature)上的新研究發現,自我訓練可能導致AI模型崩潰的風險不斷增加,並強調了對原始資料來源和仔細資料過濾的需求,認為若放任AI用自己生成的資料訓練自己,AI可能自我退化,在短短幾代的時間內將原始內容變成不可挽回的胡言亂語,導致「模型崩潰」。
「模型崩潰」
據報導,根據牛津大學研究員、該論文的主要作者Ilia Shumailov,所謂的「模型崩潰」指的就是因不審查訓練模型的合成資料,而導致AI模型退化的現象,論文指出,生成式AI工具,特別是大型語言模型(LLM),可能會自己忽略部分訓練資料集,導致訓練不完整和偏差。
忽略訓練來源的後果
LLM旨在理解和生成文本,使其成為聊天機器人和AI助理,然而,若這些模型忽略了訓練文本的重要部分,就可能迅速惡化。研究團隊發現,在模型崩潰的早期階段,模型會因為失去變異,失去少數數據的性能,若持續進行,模型最終會完全崩潰。Shumailov表示,「隨著模型繼續在自我生成、越來越不準確、不相關的文本上進行訓練,這種循環會導致模型退化。」
實際測試
在研究中,研究人員使用名為 OPT-125m 的文本生成模型演示了模型崩潰,該模型與 ChatGPT 的 GPT-3 類似,但碳足跡更小,最初,該模型產生了有關 14 世紀教堂塔樓的相關文本,然而,到了第九代,輸出已經退化為關於長耳大野兔的「無意義討論」,說明模型已經崩潰。
對網路和AI的影響
杜克大學電腦科學家Emily Wenger對這項研究發表了評論,並表示,「AI生成的線上內容的激增,可能會對模型本身造成毀滅性的影響,」強調崩潰的模型可能會忽略訓練資料中較不常見的元素,無法反映世界的複雜性和細微差別,可能會導致少數群體或觀點的代表性不足或被消除。
研究人員的建議
研究的作者強調了使用原始資料來源和仔細資料過濾,防止模型崩潰的重要性,並建議整個AI社群進行協調,追蹤LLM培訓中使用的資訊的來源,「否則訓練新版本的LLM將變得越來越困難。」與此同時,大型科技公司也正在採取措施減少AI生成內容的流行,如,Google就在三月宣布將調整其演算法,降低那些似乎是為搜尋引擎而非人類搜尋者所設計網頁的優先順序。
參考資料:gizmodo
瀏覽 1,349 次