AI機器人將進入「學習撞牆期」?專家:文本已快用完

編譯/黃竣凱

加州大學柏克萊分校的一位人工智慧(AI)專家兼教授Stuart Russell表示,ChatGPT 和其他AI驅動的機器人可能很快就會「沒有文本」可以進行訓練。Russell 認為,透過收集大量文本訓練的ChatGPT 等AI機器人將「開始遇到障礙」。 

Russell 認為,透過收集大量文本訓練的ChatGPT 等AI機器人將「開始遇到障礙」。 (示意圖/123RF)

據外媒報導,Russell不是唯一這樣想的人。AI研究人員小組 Epoch 進行的一項研究也估計,機器學習所需的「高品質的語言數據」可能會在 2026 年之前耗盡,包括來自書籍、新聞文章、科學論文、維基百科和過濾的網路內容等。

隨著AI開始取代文字工作者,Russell指出,這將改變生成式AI研究人員獲取數據和訓練系統的方式。他說:「隨著AI取帶語言輸入和輸出的工作,當我們用完文本時,我們將不得不尋找新的方法訓練AI。」

Russell 表示,ChatGPT 背後的公司 OpenAI 似乎就因為沒有足夠的「高品質公共數據」,而從其他來源購買了文本數據集。雖然OpenAI尚未詳細說明 GPT-4 的確切訓練數據集,但該公司表示,其至今為止最強大、最先進的人工智能模型 GPT-4是用「私人檔案源」補充訓練成的。

隨著AI不斷進步,人們也開始注意ChatGPT 和其他聊天機器人的訓練數據來源。很多藝術家、作家就擔心,他們的作品會在未經他們同意的情況下被複製。許多社群媒體的高層也紛紛對他們平台數據被隨意使用表示不滿。 在過去幾週內就有幾起針對 OpenAI 提起的訴訟,指控該公司使用包含個人數據和受版權保護資料來訓練 ChatGPT,包括私人對話和醫療記錄等敏感數據。

參考資料:InsiderWonderful Engineering

※更多ChatGPT相關訊息,請參考【生成式AI創新學院】。

瀏覽 38,572 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button