據(jù)外媒Venture Beat報道,F(xiàn)acebook人工智能研究院(Facebook AI Research,F(xiàn)AIR)稱,他們推出了一個與紙牌游戲Hanabi相關(guān)的最新AI項目。AI系統(tǒng)的得分是24.61分(滿分為25分),而之前最好的系統(tǒng)得分是23.92分。
今年2月,來自Google、DeepMind、卡內(nèi)基梅隆大學(xué)和牛津大學(xué)的研究人員提出了Hanabi基準(zhǔn),并提出了更多的人工智能可以玩這個游戲,以實現(xiàn)“人工智能研究的新挑戰(zhàn)”。參與該項目的研究人員認(rèn)為,弄清楚怎樣玩好Hanabi,這對于人工智能來說可能是一個重大進步,并且有助于其在聊天和自動駕駛等應(yīng)用場景中與人類進行更加流暢的互動。
與國際象棋或圍棋這些AI挑戰(zhàn)人類的其他游戲不同,Hanabi是一種合作游戲,參與者可以共同努力,朝著一個共同的目標(biāo)努力。這款游戲最大的特點在于,牌是向著別人握的,玩家看不見自己的牌,但所有其他人都看得見。大家的目標(biāo)是下牌到桌面上讓五種顏色的牌都順著從1到5排列出來。
曾經(jīng)發(fā)表過相關(guān)論文的牛津大學(xué)研究員Jakob Foerster說,“Hanabi是一個關(guān)于溝通和合作的游戲,人工智能目前還沒有深入這一游戲領(lǐng)域。”
“其中一件非常令人興奮的事情是,我們所觀察到的改進,與通過深度強化學(xué)習(xí)所觀察到的改進,是完全正交的:你可以在任何策略之上加上這個,效果會更加強大。”Facebook AI研究員Noam Brown在電話采訪中這樣告訴VentureBeat。“我們看到的結(jié)果遠遠超出了我們或其他研究人員的預(yù)期。實際上,我們從搜索中獲得的好處,要強于過去使用的所有深度強化學(xué)習(xí)算法所獲得的好處。”
據(jù)了解, 這次Facebook的Hanabi AI項目借鑒了Pluribus的一些搜索技術(shù),Pluribus是Facebook于今年早些時候推出的一款玩撲克的AI,擊敗了一些人類冠軍。
報道稱,F(xiàn)acebook的AI團隊通過將搜索技術(shù)與深度強化學(xué)習(xí)結(jié)合起來實現(xiàn)了這一壯舉。搜索算法把一個代理之外的所有代理執(zhí)行商定的策略將問題轉(zhuǎn)換為單個代理設(shè)置,這是一種被稱為“藍圖”(blueprint)的強化學(xué)習(xí)算法。根據(jù)一篇題為“通過在合作部分可觀察的游戲中搜索來改進策略” 的論文,這一算法允許搜索代理“將其他代理的已知策略作為環(huán)境的一部分進行處理,并基于其他行為來維護對隱藏信息的信念。”
來源 | 雷鋒網(wǎng)
作者 | 周蕾