華文網

「揭秘」人工智慧是如何擊敗人類作家稱霸德州撲克的?

據華盛頓消息,今年早些時候擊敗四名頂尖職業撲克玩家的人工智慧,Libratus利用了一個三管齊下的方法,掌握了比宇宙原子更多決策點的遊戲。

在“科學”雜誌上發表的一篇研究報告中顯示,美國卡內基梅隆大學的研究人員詳細介紹了他們的AI如何通過將遊戲分解為可計算的可控部分來實現超人的表現,並根據對手的遊戲情節,找到其潛在的弱點制定相應的競爭戰略。

熟悉AI領域的人都清楚,該程式已經在跳棋、棋牌和圍棋中擊敗了人類中的頂級人物,

但所有的遊戲都是一種能看到對手棋路的情形。相比之下,撲克玩家則不同,他們需要面對不同的情況,需要與隱藏的資訊進行對抗,也不清楚對手實力如何,是否在虛張聲勢。

一月份在匹茲堡河畔賭場舉行的為期12天的20天比賽中,Libratus成為第一個在首席無限德州撲克撲克賽中擊敗頂級人類玩家的AI,這是一次里程碑式的事件。

Libratus在雙人遊戲中單獨擊敗了每個玩家,

共籌集了超過180萬美元的籌碼。

研究人員表示,“Libratus中的技術不使用專家領域知識或人類資料,也不是專門用於撲克的技術,它們適用于大量不完美的資訊遊戲。

這種隱藏的資訊的情況在現實世界的戰略互動中無處不在,包括商業談判、網路安全、金融、戰略定價和軍事應用。

Libratus主要包括三個主要模組,其中第一個模組可以計算出比遊戲中的所有可能的決策點(大約10乘以161倍)都更小且更容易解決的遊戲。

然後為早期的德州撲克的前幾輪制定自己的詳細策略,並為後來的遊戲制定比較粗略的策略。這個策略被稱為藍圖戰略。

在遊戲的最後一輪,第二個模組根據遊戲的狀態構建一個新的,更精細的抽象。

它還即時計算這個子遊戲的策略,即使用藍圖策略指導來平衡不同子遊戲中的策略 - 這是為了實現安全的子遊戲解決方案二做的事情。

第三個模組旨在隨著競爭的進行而改進藍圖戰略。通常,AI使用機器學習來發現對手策略中的錯誤然後在遊戲的過程中利用它們。

但是,如果對手轉移戰略,那麼這也會使AI得到進一步開發。

相反,Libratus的“自我改進模組”會分析對手的賭注大小,

以檢測Libratus藍圖戰略中的潛在漏洞。

Libratus然後添加這些缺少的決策分支,為他們提供計算策略,並將其添加到藍圖中。

除了擊敗人類職業選手之外,Libratus還針對之前最好的撲克AI選手進行評估。

其中包括由Sandholm和Brown開發的bot Tartanian8,它贏得了與人工智慧年會高級協會聯合舉辦的2016年度電腦撲克大賽。

儘管Baby Tartanian8以12(正/負10)mbb /手和24(正負20)mbb /手擊敗了接下來兩項最強大的AI,Libratus以63(+/- 28)mbb /手擊敗了Baby Tartanian8 。作者指出,DeepStack尚未經過其他AI的測試。

“我們開發的技術在很大程度上是獨立於域的,因此可以應用於其他戰略性的不完美資訊交互,包括非娛樂應用。”Sandholm和Brown總結道,“由於現實世界戰略互動中隱藏的資訊無處不在,我們相信Libratus中引入的範例將對人工智慧的未來發展和廣泛應用至關重要。”

這項技術已經獨家授權給戰略機器公司,由Sandholm公司成立,將戰略推理技術應用於許多不同的應用。

Brown和Sandholm撰寫的關於嵌套子遊戲解決方案的論文最近在“神經資訊處理系統”(NIPS 2017)會議上獲得了最佳論文獎。 Libratus在2017年高性能計算,網路,存儲和分析國際會議(SC17)上榮獲“HPCwire最佳人工智慧讀者選擇獎”。

儘管Baby Tartanian8以12(正/負10)mbb /手和24(正負20)mbb /手擊敗了接下來兩項最強大的AI,Libratus以63(+/- 28)mbb /手擊敗了Baby Tartanian8 。作者指出,DeepStack尚未經過其他AI的測試。

“我們開發的技術在很大程度上是獨立於域的,因此可以應用於其他戰略性的不完美資訊交互,包括非娛樂應用。”Sandholm和Brown總結道,“由於現實世界戰略互動中隱藏的資訊無處不在,我們相信Libratus中引入的範例將對人工智慧的未來發展和廣泛應用至關重要。”

這項技術已經獨家授權給戰略機器公司,由Sandholm公司成立,將戰略推理技術應用於許多不同的應用。

Brown和Sandholm撰寫的關於嵌套子遊戲解決方案的論文最近在“神經資訊處理系統”(NIPS 2017)會議上獲得了最佳論文獎。 Libratus在2017年高性能計算,網路,存儲和分析國際會議(SC17)上榮獲“HPCwire最佳人工智慧讀者選擇獎”。