Deepmind新AI精通西洋陸軍棋 贏過人類進入前三
Deepmind是一家英國的人工智慧公司,近日發表了能夠精通西洋陸軍棋Stratego的人工智慧代理DeepNash,使用結合博奕理論和無模型深度強化學習方法的新技術,來精通Stratego贏過人類專家。
棋盤遊戲向來是許多研究人員衡量人工智慧進步的指標,因為可以在受控環境中,研究人類和機器的策略制定和執行,而Stratego是一款經典的棋盤遊戲,比象棋和圍棋還要更複雜,因為玩家無法直接觀察到對手的棋子,在訊息不完全的情況之下,複雜度極高,過去應用在象棋和圍棋的搜尋技術已經不管用,大幅增加人工智慧遊玩的難度。
然而,DeepNash在與人類玩家比賽後,排名進入前三名。研究人員說明,所謂的無模型,代表DeepNash不會試圖在遊戲過程明確的模擬對手的遊戲狀態,因為Stratego的太過複雜,DeepNash無法使用典型的蒙地卡羅樹搜尋法,因為該方法只適用於不太複雜的棋盤遊戲或是撲克牌遊戲。
因此研究人員參考博弈論演算法,採用了名為R-NaD的方法,使DeepNash的學習行為往「納許均衡Nash Equilibrium」發展,這項策略使得DeepNash擁有超高勝率,最差的勝率是50%。DeepNash與最先進的Stratego機器人比賽時,勝率高達97%,在對抗頂尖玩家時,勝率是84%。
為了不被破解,DeepNash制定不可預測的策略,這代表人工智慧會進行一系列初始部署,防止對手在遊玩的時候發現模式,也會仔細評估對手試圖隱藏的資訊,即便在遊玩過程中呈現劣勢,也能利用進階情報獲得勝利。有趣的是,Stratego是一個需要虛張聲勢的遊戲,DeepNash學會了各種虛張聲勢的策略,甚至還能運用小棋子引誘對手進入伏擊位置,消滅關鍵的棋子。(記者/竹二)
瀏覽 673 次