AI 會愈來愈笨嗎 模型崩潰怎麼辦
編譯/黃竣凱
隨著生成式人工智慧(AI)的蓬勃發展,業界開始討論一個令人擔憂的「模型崩壞」(model collapse)現象,儘管這一概念早在2023年已被提出,但近期才逐漸受到廣泛關注,所謂「模型崩壞」指的是,隨著網路上AI生成內容的增多,未來的AI系統將因過度依賴這些低品質數據,而變得愈來愈「笨」的假設性情境。
AI發展的隱憂
據報導,目前的生成式AI系統,如OpenAI的ChatGPT、Google的Bard和Meta的LLaMA,依賴大量高品質的數據進行訓練,通常來自網路上的人類創作內容。然而,隨著AI技術自2022年起的普及,AI生成的內容在網路上的占比逐漸增長,並且成為新的數據來源,許多研究者就開始探討,是否可以僅依賴AI創造的數據進行訓練,而不再需要人類數據。
然而,儘管基於AI生成的數據成本更低,且不涉及倫理或法律風險,這一方向看似具有吸引力,但研究結果顯示,缺乏高品質的人類數據,AI系統的訓練效果會逐漸下降,導致模型行為的品質和多樣性變差,就像是「數位近親繁殖」一樣,最終可能導致AI系統因一再從已有的AI數據中學習而退化,失去原本的實用性。
避免崩壞的挑戰
目前的研究結果顯示,AI系統無法完全擺脫對人類數據的依賴,畢竟AI中的「智慧」來源,仍是人類知識,理論上,科技公司可以過濾掉AI生成的內容,但實際操作起來並不簡單,大公司如OpenAI和Google已經投入大量資源清理和過濾數據,但隨著AI生成內容的增多,這項工作將變得更加困難且耗費成本,且隨著AI生成的內容變得越來越難以辨別,這種過濾效果將逐步遞減。
資料短缺的隱憂
業內有跡象表明,開發者已經在努力尋找高品質的數據,如,OpenAI在發布GPT-4時,參與數據處理的團隊人數就創下歷史新高,此外,有估計指出,到2026年,人類生成的文本數據庫可能會枯竭。
潛在的社會文化風險
除了技術崩壞,AI生成內容的泛濫也帶來了更多隱性風險,一方面,過多的AI內容可能會損害網路上原有的人類創作,例如程式碼分享網站StackOverflow,在ChatGPT發布一年後,其用戶活動量下降了16%,顯示出,AI輔助可能已在某些線上社群中,削弱了人與人之間的互動,另一方面,AI內容的爆發式增長,也讓人難以分辨哪些內容是由人類創作,哪些是由機器生成的,儘管一些國家如澳大利亞,已經推行標註AI生成內容的臨時法規,但在全球範圍內實現這一目標仍面臨挑戰,最後,隨著AI生成的內容趨於同質化,社會文化多樣性可能會逐漸消失,部分群體的文化甚至面臨被「抹去」的風險。
參考資料:Telegraph India
※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!
瀏覽 518 次