OpenAI創新方式 用Minecraft遊戲訓練AI模型
AI模型開發商OpenAI近日宣布,將以創新的方式來訓練AI模型,有望省去標註大量資料的訓練過程。而他們指的創新方式是讓AI學會在《Minecraft》遊戲世界裡面蓋房子、打造工具。
傳統訓練AI模型的方式,通常都需要先以人力在大量訓練資料集上標註後,再送入神經網路,非常耗時,為了節省時間,OpenAI使用名為「影片預訓練」(Video Pretraining,VPT)的方法,只用少量約聘人員標註的資料,再經過模仿學習及增強學習法二次微調,就在大量未標註的遊戲影裡訓練神經網路,學會玩《Minecraft》這款知名遊戲。
《Minecraft》是一款玩家可藉由各種不同模式,然後利用方塊建立一個虛擬世界的遊戲,其他人可以透過網路影片觀摩玩家開採資源、創造建築的過程,只不過影片無法精確展示該玩家怎麼使用滑鼠,或是按了哪些按鍵。而OpenAI使用「影像預訓練」方法,先蒐集少量人員約2000小時的影像資料,包含他們的按鍵、滑鼠動作,然後研究小組透過訓練「反向動態模型」來預測影片中的每一動作,並標籤7萬小時的《Minecraft》網路影片資料集,建立行為複製(behavioral cloning,BC)模型。
透過行為複製方法,研究人員以約聘人員玩《Minecraft》蓋房子的新影片來訓練基礎模型,影片只有10分鐘,經過微調後,已經能在遊戲中使用木柴、石材,甚至從其他村莊取得物資。隨後OpenAI用增強式學習來進行第2次模型微調後,不但學會打造鑽石鶴嘴鋤,還能蒐集所有必要材料。
因此,OpenAI研究人員指出,以公開的網路影片這種沒有標籤的資料來訓練AI是可能的,只要透過建立初步模型,再以模仿學習及增強學習方法微調,就能讓AI學習高難度技能,這也讓無標籤資料訓練變得可能。(記者/竹二)
瀏覽 803 次