德州撲克被AI攻破？剛進行到圍棋九路盤而已

德州撲克被AI攻克？才剛開始

作者：余小魯

作者系理論物理博士，人工智慧專家。新浪撲克學院特邀講師

Sunday， 31 December 2017

余小魯博士(右)在新浪總部大廈接受專訪

不只是一個紙牌遊戲——德州撲克AI的意義

和穀歌研究圍棋AI一樣，卡內基梅隆大學研究德州撲克AI，也是“志不在此”。因為德州撲克中存在很多和社會生活類似的普遍難題，此研究才有根本重要的意義。

德州撲克AI的意義

德州撲克AI的里程碑——Libratus（冷撲）

Libratus是“balanced”的拉丁文，意為均衡（大陸翻譯為冷撲。這個翻譯非常的妙，讀音相近，而且這個AI打德州撲克非常冷，是冷血的極致，下文再細解。）。 balanced是德州撲克網路革命這十年來最熱的一個概念，根源於數學的博弈論。我們在此不用數學公式，試圖用大白話先來解說這個概念。

李開複等講解德撲人機對抗

剪刀石頭布的遊戲，如何玩才能保持不敗呢？比如說我隨機的50%出剪刀， 30%出石頭， 20%出布，你如何打敗我？隨機性並不難懂，比如我們可以看自己的手錶，秒針超過六點出剪刀，不到二點二分出布，其餘出石頭。稍微思考一會就知道，你應該永遠出石頭，也就是說一百次你會平均贏50次，平手30次，輸了20次。統計上，我就被你打敗了，直觀上講我的遊戲策略不是均衡的（balanced）。那麼我稍微改進一下，我隨機的1/3出剪刀， 1/3出石頭， 1/3出布，這個策略是不可被打敗的，可以稱為博弈論最優解（GTO）。再細想一下，這個策略雖然不可以被打敗，但是對手無論用什麼策略我都結果一樣，不會獲勝也不會失利，也就是說我的策略使得可以不再關心對手用何種策略（indifference threshold）。

德州撲克的遊戲結構比剪刀石頭布複雜得多，但核心概念是類似的。冷撲之所以能冷，能獲勝，就是找到了每一種局面下可以採取某種特定策略使得可以不再關心對手採用何種策略，簡單的說，就是有效避免了德州撲克裡面猜來猜去的怪區。最大的不同在於，剪刀石頭布的博弈論最優解的期望值是零。德州撲克裡面很多局面下最優解的期望值是正數，這就是冷撲打敗人類牌手的數學基本出發點。

冷撲的三大模組冷撲的策略

Libratus（冷撲）和人類牌手的比較

冷撲相較於人類牌手的優勢

冷撲相較於人類牌手的劣勢

冷撲與阿爾法圍棋對比

德州撲克的理論

何謂理論？抽象的說，

就是人為構造一套概念框架，在這個框架裡面進行邏輯演繹來理解事物。舉個圍棋的例子，我們人為的構造了一個叫“厚勢”的概念。人為構造的概念往往有一定的模糊性，厚勢或者可以先定義為鐵活或者不容易受到攻擊且對中腹有影響的一些棋子組合。進一步的邏輯演繹，中國古人形成了一個理論叫“勿近厚勢”。對方的厚勢不要去靠近，甚至自己的厚勢也不要去靠近，都會影響棋子的效率。粗粗看起來，這樣的“理論”很有道理，很有說服力，像講故事一樣，我們稱之為“故事理論”。

電腦人工智慧不適合這樣的故事理論。無論是阿爾法圍棋，還是冷撲，都不是使用這種理論。但幾乎所有的德州撲克培訓班，教學視頻，經典技術書籍，教的都是這樣的故事理論。比如說，轉牌拿一個頂對弱踢腳（top pair weak kicker）過牌控制彩池，不要跟石頭（nit）的加注，等等。大多數故事理論都有兩面性，就是這個故事經常可以反過來講，讓你無從選擇正確的決策。比如你的對手剛剛輸掉兩個大彩池，你準備現在給他一個大的詐唬（bluff），你的理論依據是這樣的一個故事：他剛輸掉兩個大彩池，現在有點手軟，不敢持邊緣牌跟注，所以我的詐唬是好的。但這個故事理論也可以這麼講述：他剛輸掉兩個大彩池，現在有點上頭（tilting），千萬不要去詐唬他。

冷撲對戰中國牌手

那麼人工智慧冷撲用的究竟是何種理論？前面的剪刀石頭布遊戲已經可以看出一點端倪，但真實完整的無限注德州撲克太過複雜，我們可以用個迷你版的德州撲克來代替。現在只有兩個玩家，小盲注0.5個籌碼，大盲注1個籌碼，每個玩家桌子上總共有十個籌碼。小盲注先做決定，這個遊戲設定只給他兩個選項：全下或者棄牌。那麼冷撲的理論是什麼呢？或者說人工智慧是要求解什麼東西？

第一，冷撲求解出來小盲注持什麼牌需要棄牌，什麼牌需要全下。

第二，冷撲求解出來大盲注持什麼牌需要棄牌，什麼牌需要跟注。

第三，以上一二兩點稱為這個遊戲的策略，必須證明這個策略為什麼是最優解，不能變動。

第四，這個遊戲是對小盲注有利，還是對大盲注有利？這個利益如何量化，精確計算得到？

大家可以看到，即使是這樣一個迷你版的德州撲克，比真實德州撲克簡化了不知道多少，要使用這種理論精確求解，依然非常之複雜。這也就是我們大家學習德州撲克，學的都是“故事理論”，而不是冷撲這樣的“數學理論”。阿爾法圍棋最新推出了一個教學工具，對棋屆可以說功德無量。但阿爾法的“教學”，不是一個“故事理論”，當代職業頂尖棋手要當阿爾法的學生，必須從阿爾法的“教學”給出來的棋路中，自己重新講個故事給自己聽，形成一個新的故事理論，才能吸收到阿爾法圍棋的精髓。冷撲的牌路給我們的啟示也是類似的，每一個頂尖牌手，只能成為一個編劇，把冷撲的打法講成一個自己能夠理解的故事，從中不斷試錯和深造。

德州撲克的浩瀚版圖

我們通常說的德州撲克，都指的是無限注德州撲克。印證了德撲教父道爾布蘭森在其名著《超級系統》中的話：無限注德州撲克是撲克中的凱迪拉克。

作者在MTT比賽現場

無限注德州撲克的比賽形式非常繁多，目前比較主流的智力競技模式有兩種，即時錦標賽（SNG）和常規錦標賽（MTT）。每一桌子的人數有2人，6人，9人，10人多種格式。。再加上盲注抽水（ante）的增長快慢，總彩池的大小，獎金分佈結構，諸多因素的組合，可以說德州撲克的常見比賽形式不下百種。而冷撲只擅長裡面唯一一種遊戲結構，就是單挑（又稱一對一，heads up）形式的無限注德州撲克。即使有超級計算資源，其基於博弈論的演算法要推廣到以上所說的種種比賽形式，還有非常漫長的路要走。冷撲對德州撲克的衝擊力，遠遠不如Alpha Go對圍棋的衝擊力，其根本原因就在於此。

補注：

冷撲之父

1。卡內基梅隆的Noam Brown博士，也是冷撲的主要創造者之一，認為未來兩年下一代的AI有可能戰勝六人桌，作者表示存疑，讓我們一起拭目以待。

2。對於有興趣深入瞭解冷撲演算法的讀者，可以參考2017年12月17日在美國《科學》上發表的論文 Superhuman AI for heads-up no-limit poker： Libratus beats top professionals。

經典技術書籍，教的都是這樣的故事理論。比如說，轉牌拿一個頂對弱踢腳（top pair weak kicker）過牌控制彩池，不要跟石頭（nit）的加注，等等。大多數故事理論都有兩面性，就是這個故事經常可以反過來講，讓你無從選擇正確的決策。比如你的對手剛剛輸掉兩個大彩池，你準備現在給他一個大的詐唬（bluff），你的理論依據是這樣的一個故事：他剛輸掉兩個大彩池，現在有點手軟，不敢持邊緣牌跟注，所以我的詐唬是好的。但這個故事理論也可以這麼講述：他剛輸掉兩個大彩池，現在有點上頭（tilting），千萬不要去詐唬他。