華文網

解讀冷撲大師背後的AI演算法和博弈論:CFR演算法是核心

問耕 發自 LZYY

昨天下午,量子位在中關村舉辦了一個技術沙龍,邀請創新工廠AI工程院技術VP李天放、聯想智慧醫療CEO林林等,從技術和實戰的角度,對德州撲克人機大戰進行解讀。

嘉賓介紹

李天放

創新工廠AI工程院技術負責人,課程格子的創始人,前微軟工程師,以及著名大資料公司Palantir早期成員。德州撲克職業玩家。

以下是李天放對德州撲克AI的技術解讀:

文字版本整理如下:

AI演算法和博弈論,這兩個交叉點還是有一點難度的。

先從博弈論開始。

大家需要對GTO/納什平衡有一個初期的理解。在德州撲克,翻硬幣,剪刀石頭布這類遊戲裡面,納什平衡點的定義是:如果雙方都在用一個比較好的戰略,任何一方做出調整結果都會更糟糕,也就是存在一個平衡點,使得兩個人都不能再進步。

我們用一個簡單的遊戲解釋。

如果我們玩一手剪刀石頭布,可能靠運氣;玩二十萬手,就要看戰略是什麼。如果我們想解這個問題,

也是很簡單,下面這個就是所謂的完美戰略:

· 33%剪刀 33%石頭 33%布

· 無論對手用什麼戰略,都不可能戰勝我們

· 但我們也贏不了…

然而想要接近一個真正的完美戰略是非常難的,大部分人有些偏好,更接近的可能是這樣一個情況,對手比較笨不知道能出剪刀:

· 假設對手#1:從來不出剪刀,50%布,50%石頭

· 我們的老戰略有問題麼?(各33%)

老戰略可能還是不輸的,但也不是最佳戰略(GTO)。納什平衡的意思是雙方都不能改進,

如果知道對手從來不出剪刀,我們的戰略是能改進的。針對上面的對手#1,我們的戰略可以改成:50%剪刀,50%布。

為什麼不用100%布的戰略?因為對方可能也調整成100%布。使用50%剪刀,50%布的戰略至少可以比打平做的更好。

從博弈論來說,我們找到了對手的弱點,但沒有暴露自己的弱點。也就是說,我們找到了一個新的平衡點。

這就是Libratus在做的事情。

相比於石頭剪刀布,一對一的德州撲克,是一個複雜度非常高的博弈。如何找到德州撲克的GTO和納什平衡點?這是此類AI演算法的核心。

CounterFactual Regret Minimization(CFR,反事實遺憾最小化),這是一個類似強化學習的演算法,但是更高效。讓AI之間對戰德撲,採用隨機的策略,然後每局過後看看在什麼地方後悔了,

然後嘗試不同的戰略,再在決策點上複盤。

這個演算法與人類學習德州類似:累積經驗、評判自己的選擇,但需要注意的是,這裡正確的“後悔點”非常重要。德州撲克有很強的隨機性,所以很容易陷入錯誤的學習方式。

演算法很簡單,問題是無限德州的空間太大了,複雜度是10的160次方。有幾種解決方案:合併簡化+CFR(Claudico),CFR+“直覺”(DeepStack),CFR+End Game Solver+RL(Libratus)。

總結一下:

· CFR類似於強化學習。權重調整基於概率。

· AI的戰略和學習方式和職業牌手相似,但是更準確。

量子位招聘

我們正在招募編譯、編輯、記者、市場、運營等多個崗位,工作地點在北京中關村,期待你的到來,一起體驗人工智慧的風起雲湧。

招聘”兩個字。

今天AI界還有哪些事值得關注?

今天”,看我們全網搜羅的AI行業和研究動態。筆芯❤~

qbitbot,如果你研究或者從事AI領域,小助手會把你帶入量子位的交流群裡。

總結一下:

· CFR類似於強化學習。權重調整基於概率。

· AI的戰略和學習方式和職業牌手相似,但是更準確。

量子位招聘

我們正在招募編譯、編輯、記者、市場、運營等多個崗位,工作地點在北京中關村,期待你的到來,一起體驗人工智慧的風起雲湧。

招聘”兩個字。

今天AI界還有哪些事值得關注?

今天”,看我們全網搜羅的AI行業和研究動態。筆芯❤~

qbitbot,如果你研究或者從事AI領域,小助手會把你帶入量子位的交流群裡。