解讀冷撲大師背後的AI演算法和博弈論：CFR演算法是核心

問耕發自 LZYY

昨天下午，量子位在中關村舉辦了一個技術沙龍，邀請創新工廠AI工程院技術VP李天放、聯想智慧醫療CEO林林等，從技術和實戰的角度，對德州撲克人機大戰進行解讀。

嘉賓介紹

李天放

創新工廠AI工程院技術負責人，課程格子的創始人，前微軟工程師，以及著名大資料公司Palantir早期成員。德州撲克職業玩家。

以下是李天放對德州撲克AI的技術解讀：

文字版本整理如下：

AI演算法和博弈論，這兩個交叉點還是有一點難度的。

先從博弈論開始。

大家需要對GTO/納什平衡有一個初期的理解。在德州撲克，翻硬幣，剪刀石頭布這類遊戲裡面，納什平衡點的定義是：如果雙方都在用一個比較好的戰略，任何一方做出調整結果都會更糟糕，也就是存在一個平衡點，使得兩個人都不能再進步。

我們用一個簡單的遊戲解釋。

如果我們玩一手剪刀石頭布，可能靠運氣；玩二十萬手，就要看戰略是什麼。如果我們想解這個問題，

也是很簡單，下面這個就是所謂的完美戰略：

· 33%剪刀 33%石頭 33%布

· 無論對手用什麼戰略，都不可能戰勝我們

· 但我們也贏不了…

然而想要接近一個真正的完美戰略是非常難的，大部分人有些偏好，更接近的可能是這樣一個情況，對手比較笨不知道能出剪刀：

· 假設對手#1：從來不出剪刀，50%布，50%石頭

· 我們的老戰略有問題麼？（各33%）

老戰略可能還是不輸的，但也不是最佳戰略(GTO)。納什平衡的意思是雙方都不能改進，

如果知道對手從來不出剪刀，我們的戰略是能改進的。針對上面的對手#1，我們的戰略可以改成：50%剪刀，50%布。

為什麼不用100%布的戰略？因為對方可能也調整成100%布。使用50%剪刀，50%布的戰略至少可以比打平做的更好。

從博弈論來說，我們找到了對手的弱點，但沒有暴露自己的弱點。也就是說，我們找到了一個新的平衡點。

這就是Libratus在做的事情。

相比於石頭剪刀布，一對一的德州撲克，是一個複雜度非常高的博弈。如何找到德州撲克的GTO和納什平衡點？這是此類AI演算法的核心。

CounterFactual Regret Minimization(CFR，反事實遺憾最小化)，這是一個類似強化學習的演算法，但是更高效。讓AI之間對戰德撲，採用隨機的策略，然後每局過後看看在什麼地方後悔了，

然後嘗試不同的戰略，再在決策點上複盤。

這個演算法與人類學習德州類似：累積經驗、評判自己的選擇，但需要注意的是，這裡正確的“後悔點”非常重要。德州撲克有很強的隨機性，所以很容易陷入錯誤的學習方式。

演算法很簡單，問題是無限德州的空間太大了，複雜度是10的160次方。有幾種解決方案：合併簡化+CFR(Claudico)，CFR+“直覺”(DeepStack)，CFR+End Game Solver+RL(Libratus)。

總結一下：

· CFR類似於強化學習。權重調整基於概率。

· AI的戰略和學習方式和職業牌手相似，但是更準確。

量子位招聘

我們正在招募編譯、編輯、記者、市場、運營等多個崗位，工作地點在北京中關村，期待你的到來，一起體驗人工智慧的風起雲湧。

招聘”兩個字。

今天AI界還有哪些事值得關注？

今天”，看我們全網搜羅的AI行業和研究動態。筆芯❤~

qbitbot，如果你研究或者從事AI領域，小助手會把你帶入量子位的交流群裡。