9個問答告訴你，為什麼AI在德州撲克上打敗人類是個大事件

人工智慧利用博弈論策略和深度學習方法，在雙人德州撲克中擊敗人類職業選手。

這種複雜的撲克玩法是人工智慧（AI）最新涉足的領域，目前已經被成功征服——且成功了兩次，征服者分別為兩個不同研究團隊所研製的對戰機器人。

這兩個人工智慧挑戰的都是“無限注”雙人德州撲克，而且在過去幾個月中都取得了里程碑式的成就——他們打敗了人類職業選手。

去年12月， DeepStack率先贏得比賽。該人工智慧由加拿大阿爾伯塔大學的電腦科學家同捷克布拉格查理大學和捷克理工大學的科學家共同研製而成。

今年1月，由美國卡內基梅隆大學團隊研製的Libratus也取得了同樣的功績。

在過去的十年中，兩支團隊爭相研製更為智慧的機器人。如今， DeepStack的研究團隊已經正式將其人工智慧細節發表在《科學》雜誌上。

本文主要講述兩個人工智慧有何區別，其成就對於網上賭場有何影響，以及人工智慧還有哪些沒有攻克的領域。

頂級職業撲克選手已經在無限注德州撲克中敗給了人工智慧機器人。

Q：人工智慧研究者為何選擇撲克？

A：人工智慧已經精通了多種棋類遊戲，包括國際象棋和圍棋等複雜的策略類遊戲。而撲克比棋類遊戲更為複雜，這是因為它有一處顯著不同——選手必須在無法得知賽局所有資訊的情況下，制定自己的策略。他們必須根據對下注等過程的觀察，猜測對手有什麼手牌，並考慮對手對於他們自己的手牌又有怎樣的猜測。

這樣的“不完全資訊”博弈更貼近現實生活中解決問題的場景。例如，在拍賣和金融談判中，就會出現類似情況。而撲克則成為了測試人工智慧是否能應對這種情景的平臺。

人工智慧已經掌握了較簡單的撲克玩法：阿爾伯塔團隊已經於2015年基本掌握了雙人有限注德州撲克。 DeepStack和Libratus挑戰的仍然是雙人德州撲克，但下注、跟注的籌碼沒有上限——正因如此，無限注玩法對於人工智慧程式來說更為複雜，也更難掌握。

Q：人機比賽過程如何？

A：去年11月開始為期四周多的比賽中， DeepStack與11位職業選手各比賽3000手牌，並以統計上顯著的優勢擊敗10名選手。

今年1月， Libratus則在約12萬手牌的比賽中，擊敗4名更為優秀的專家級職業選手。比賽最終結束時， Libratus共有約180萬美元的虛擬籌碼。

Q：這些人工智慧背後有什麼數學原理？

A：博弈論。兩個人工智慧都需要摸索出在任何情況下，無論對手如何應對，都能必贏的策略。

根據博弈論理論，在一對一撲克這樣的零和博弈（即一方有所得，另一方必有所失）裡面，這樣必贏的策略必然存在。人類選手可能會利用較弱對手的失誤而贏得很多籌碼，而使用上述策略的人工智慧則不在乎贏取籌碼的多寡——對於它而言，只要贏得牌局就好。這意味著它不會因為對手的意外之舉而不知所措、自亂陣腳。

此前挑戰撲克的人工智慧都是盡可能提前制定策略，計算大量“博弈樹”，列出賽局各種可能性的應對辦法。但是存在太多的可能性——共有10^160個——不可能全部映射。因此，研究人員最終只處理部分可能情形。賽局中，人工智慧會將當前情形與曾經進行計算過的情形相比較，找出最接近的情形，將對應的解決方案進行“轉化”，

再運用到當前賽局中。

與之不同的是， DeepStack和Libratus已經可以即時計算解決方案——就與下國際象棋和圍棋的電腦一樣。

Q：兩個人工智慧使用的具體方法有何不同？

A：DeepStack並非提前列出完整博弈樹，而是在牌局中的各個決策點僅重新計算少部分的博弈樹，預測可能出現的一些情形。

這一辦法利用了深度學習，這是借鑒人類大腦的神經網路構造而發明的一種技術(有賴於此，電腦得以打敗全世界最優秀的圍棋選手)。

DeepStack經歷逾一千一百萬種不同的賽局情形，不斷學習，形成了“直覺”，已經能夠在賽局的某一節點預判贏率。因此，它只需要較短的時間（僅約5秒）來計算較少的可能性，並即時做出決策。

Libratus團隊還沒有將具體方法發表出來，因此目前還不清楚Libratus具體工作原理。不過已經清楚的是，在牌局早期，Libratus借鑒曾經進行計算過的情形，使用“轉化”法，然後做出決策；而當牌局進行到後期，人工智慧可以獲悉更多資訊時，再將策略進行優化。至於其他時候，隨著牌局的進行，可能性越來越少，Libratus也會對解決方案進行即時計算。

Libratus同樣加入了一種特殊的學習元素。它的開發者為它增加了自我優化的模組，可以自動分析它的玩牌策略，瞭解對手如何利用其弱點。在此基礎上，他們再對Libratus方法上的漏洞進行修復。

這兩種方法需要擁有明顯不同的計算能力：DeepStack受訓175核年——相當於一個處理器運行175年、或幾百台電腦運行數月的工作量。而在牌局中，它僅需要一部筆記型電腦即可進行操作。Libratus則不同，它在賽前和比賽中均使用超級電腦，大約相當於2900核年的工作量。

Q：人工智慧是否也會虛張聲勢？

A：會。通常人們認為虛張聲勢是人類才會做的行為，至於電腦，它們不會去瞭解、預測對手行為，而是完全基於牌局中隱含的數學原理而進行決策。虛張聲勢通常只是為防止對手通過自己的下注規律猜到自己手牌而採取的一種策略。

Q：那麼，哪個成果更為突出呢？

A：見仁見智。有關專家對於兩個方法的複雜性有些爭議，但總體來說，兩個人工智慧都玩了足夠多手牌，均已取得統計上顯著的勝利——並且都是與職業選手進行比賽。

Libratus玩了更多手，但DeepStack則不需要這麼做，因為其團隊使用了一種複雜的統計方法，可以通過較少的牌局就能取得顯著結果。Libratus擊敗的專業選手要更為優秀，但平均來說，DeepStack獲勝的優勢更大些。

Q：兩個人工智慧會進行對決嗎？

A：也許會。不過，兩者計算能力存在巨大差距，因此在牌局中的玩牌速度有所不同，這可能是比賽所面臨的一個癥結。因此，如何制定讓雙方都會同意的比賽規則就成了難題。

阿爾伯塔大學電腦科學家、同時也是DeepStack開發者之一的Michael Bowling表示，他們的團隊願意與Libratus進行比賽。可是Libratus的開發者、卡內基梅隆大學的Tuomas Sandholm則表示，他希望DeepStack能夠先打敗Baby Tartanian8，這是他們團隊之前設計的人工智慧，功能沒有Libratus強大。

Bowling強調，比賽將存在一個重要的局限：贏得賽局也不一定意味著人工智慧性能更好。兩者都盡力打出完美比賽，但能夠實現這一目標的策略在正面交鋒中未必總是存在。一方人工智慧有可能無意中發現另一方策略上的漏洞，但這並不能說明另一方的整體策略上存在更多或者更嚴重的漏洞。Bowling說，除非一方以較大優勢獲勝，“否則我覺得，這樣的比賽不會如人們期待那樣，提供很多有用的資訊”。

Q：人工智慧掌握撲克玩法，是否意味著網上撲克遊戲的終結？

A：不是。雖然頂級選手已經開始進行人機對戰訓練，但許多網上賭場禁止玩家在賽局中使用電腦。

Q：現在，電腦已經達成了人工智慧歷史上的又一座里程碑，那麼還有哪些領域沒有被攻克呢？

A：至今仍存在著幾座高峰等待人工智慧去攀登。從某種程度上來說，這是由於許多尚未被人工智慧掌握的遊戲，比如橋牌，其規則更為複雜，目標也就不那麼明顯。

兩個團隊接下來的研究主題自然是掌握多人撲克。這幾乎意味著一切從頭開始，因為零和博弈理論不再適用於這一領域。例如，在三人撲克中，某個選手的失誤，有可能會間接妨礙對手，而不是讓對手獲益。

不過Bowling也提到，哪怕理論不再適用，深度學習所形成的直覺，仍有望幫助人工智慧找到解決方案。他說，他們的團隊最初在有限注三人德州撲克中嘗試類似辦法時，結果就出人意料的好。

另外一個挑戰則是訓練人工智慧在不知曉遊戲規則的情況下進行遊戲，並且在遊戲中逐漸自己發現遊戲規則。這樣的場景更真實地反映了人類在現實世界處理問題時的情形。

最終的考驗將是研究不完全資訊演算法如何在資訊不完整的情況下，解決複雜的現實問題，比如金融和網路安全方面的問題。

原文以How rival bots battled their way to poker supremacy為標題

發佈在2017年3月2日的《自然》新聞上

原文作者：Elizabeth Gibney

因此目前還不清楚Libratus具體工作原理。不過已經清楚的是，在牌局早期，Libratus借鑒曾經進行計算過的情形，使用“轉化”法，然後做出決策；而當牌局進行到後期，人工智慧可以獲悉更多資訊時，再將策略進行優化。至於其他時候，隨著牌局的進行，可能性越來越少，Libratus也會對解決方案進行即時計算。