機器人同事?研究:「多樣化」是合作的關鍵
隨著人工智慧的能力和功能越來越廣泛,許多人將合作的智慧視為人工智慧發展的下一步,人類和人工智慧成為夥伴,共同進行高風險工作,像是複雜的手術和防禦導彈等,在未來或許會成為常態。但是在合作智慧能夠正式使用前,研究員需要解決最大的問題,那就是:人類普遍不喜歡或是不信任人工智慧作為他們的夥伴。
最新研究指出,多樣化是讓人工智慧成為合作夥伴的關鍵,麻省理工的林肯實驗室研究員發現,運用「多樣化」的隊友訓練人工智慧時,能夠改善人工智慧與他人合作的能力。目前臉書和Google的研究團隊也在做多樣化相關的研究,而這項結果可能帶領人工智慧邁向成為人類的好夥伴這條道路。
來自林肯實驗室人工智慧科技組的羅斯.艾倫(Ross Allen)表示,當我們要合作時,就必須運用多樣化的設定去訓練,這是件讓人興奮的事時,而且他也相信這將是未來,研發成功的合作型人工智慧的一大步。
適應不同行為
研究人員利用花牌遊戲作為測試,因為這是個合作遊戲,玩家只能看別人的牌,並提示隊友讓他將牌按順序排列。在過去的實驗中,研究員找來身為花牌高手的人工智慧跟人類一起測試,測試結果發現人類非常不喜歡人工智慧,並稱他是「讓人不解和難以預測」的隊友,這也讓研究員發現他們的人工智慧中,缺少了跟人類的取向相關的事物,而且現階段所做出來的模型也並不適合現實世界。
研究團隊認為合作型人工智慧應該經由不一樣的訓練來達成,於是他們運用「強化學習型」人工智慧,也就是訓練成為使用可以拿到最高成就的手段,來達成任務的人工智慧作為訓練的模型。但是要成為成功的合作夥伴,不能只在乎如何讓獎勵最大化,而應該放更多注意在了解和適應對方的實力和喜好,也就是學習和適應多樣化。
該如何訓練擁有多樣化思想的人工智慧呢?研究員研發出了一款叫做「Any-Play」的遊戲,這個遊戲增加了其他物件(隊友)和人工智慧一起玩花牌,且同時要求人工智慧做到獎勵最大化的任務,也就是說人工智慧必須看出,它的訓練夥伴有什麼玩牌技巧。這樣的遊戲風格在遊戲中被估算和編碼,讓它能夠觀察夥伴的不同行為。這個方式也需要夥伴學習清晰、可識別的行為,讓人工智慧能夠接收和學習。
這樣多樣化的訓練方式並不新鮮,但是研究團隊透過利用這些不同的行為,延伸進遊戲中作為不同的遊戲風格,讓人工智慧必須了解隊友,並接納不同的遊戲方式,產生擅長不同遊戲風格的人工智慧。
與不喜愛它的人互動
研究團隊將之前的和人類一起玩花牌的模型加入Any-Play訓練,利用超過一百個它沒有接觸過的夥伴,作為「陌生人」一起玩了數億場遊戲。經過訓練後,有和陌生隊友一起遊戲的人工智慧,比沒有經過Any-Play訓練的更懂得合作。
發現這個改變後,研究人員認為這種類型的評估,稱為算法間的交叉玩法(inter-algorithm cross-play),是人工智慧在現實世界中與人類合作表現的最佳預測指標。「雖然現階段無法運用人類測試,但是我們認為合作型人工智慧的訓練成果極有發展性和實踐性,未來即使有陌生人時,這個人工智慧也能與它合作,這是合作型人工智慧的最大成就。」艾倫這樣說。
然而DeepMind發表的研究中,運用類似的多樣化訓練手法,讓人工智慧和人類一起合作玩胡鬧廚房(Overcooked)。這項研究成果顯示,這樣的多樣化訓練方式在與人類合作上,依然獲得成功。臉書也運用類似的,但是更複雜的訓練方式,訓練花牌人工智慧。
但是算法間的交叉玩法,是否能成功了解人類的偏好依舊是個假設,為了讓人類的想法程序化,研究員希望瞭解人們對人工智慧的想法,加速這項研究的進度。「研發能夠和人類共同合作的人工智慧面臨的挑戰是,我們沒有人類持續的在訓練人工智慧時,告訴他們自己的喜好,這需要耗費數億個小時和各式各樣的人。但是如果我們能找到某種將人類的偏好量化的方式,我們就能夠克服這個困難。」艾倫這樣說。(編譯/李昀蓁)
資料來源:https://techxplore.com/news/2022-05-diversity-key-collaboration-ai.html
瀏覽 959 次