解讀冷撲大師背後的AI演算法和博弈論:CFR演算法是核心
問耕 發自 LZYY
昨天下午,量子位在中關村舉辦了一個技術沙龍,邀請創新工廠AI工程院技術VP李天放、聯想智慧醫療CEO林林等,從技術和實戰的角度,對德州撲克人機大戰進行解讀。
嘉賓介紹李天放
創新工廠AI工程院技術負責人,課程格子的創始人,前微軟工程師,以及著名大資料公司Palantir早期成員。德州撲克職業玩家。
以下是李天放對德州撲克AI的技術解讀:
文字版本整理如下:
AI演算法和博弈論,這兩個交叉點還是有一點難度的。
先從博弈論開始。
大家需要對GTO/納什平衡有一個初期的理解。在德州撲克,翻硬幣,剪刀石頭布這類遊戲裡面,納什平衡點的定義是:如果雙方都在用一個比較好的戰略,任何一方做出調整結果都會更糟糕,也就是存在一個平衡點,使得兩個人都不能再進步。
我們用一個簡單的遊戲解釋。
如果我們玩一手剪刀石頭布,可能靠運氣;玩二十萬手,就要看戰略是什麼。如果我們想解這個問題,
· 33%剪刀 33%石頭 33%布
· 無論對手用什麼戰略,都不可能戰勝我們
· 但我們也贏不了…
然而想要接近一個真正的完美戰略是非常難的,大部分人有些偏好,更接近的可能是這樣一個情況,對手比較笨不知道能出剪刀:
· 假設對手#1:從來不出剪刀,50%布,50%石頭
· 我們的老戰略有問題麼?(各33%)
老戰略可能還是不輸的,但也不是最佳戰略(GTO)。納什平衡的意思是雙方都不能改進,
為什麼不用100%布的戰略?因為對方可能也調整成100%布。使用50%剪刀,50%布的戰略至少可以比打平做的更好。
從博弈論來說,我們找到了對手的弱點,但沒有暴露自己的弱點。也就是說,我們找到了一個新的平衡點。
這就是Libratus在做的事情。
相比於石頭剪刀布,一對一的德州撲克,是一個複雜度非常高的博弈。如何找到德州撲克的GTO和納什平衡點?這是此類AI演算法的核心。
CounterFactual Regret Minimization(CFR,反事實遺憾最小化),這是一個類似強化學習的演算法,但是更高效。讓AI之間對戰德撲,採用隨機的策略,然後每局過後看看在什麼地方後悔了,
這個演算法與人類學習德州類似:累積經驗、評判自己的選擇,但需要注意的是,這裡正確的“後悔點”非常重要。德州撲克有很強的隨機性,所以很容易陷入錯誤的學習方式。
演算法很簡單,問題是無限德州的空間太大了,複雜度是10的160次方。有幾種解決方案:合併簡化+CFR(Claudico),CFR+“直覺”(DeepStack),CFR+End Game Solver+RL(Libratus)。
總結一下:
· CFR類似於強化學習。權重調整基於概率。
· AI的戰略和學習方式和職業牌手相似,但是更準確。
量子位招聘
我們正在招募編譯、編輯、記者、市場、運營等多個崗位,工作地點在北京中關村,期待你的到來,一起體驗人工智慧的風起雲湧。
招聘”兩個字。今天AI界還有哪些事值得關注?
今天”,看我們全網搜羅的AI行業和研究動態。筆芯❤~qbitbot,如果你研究或者從事AI領域,小助手會把你帶入量子位的交流群裡。總結一下:
· CFR類似於強化學習。權重調整基於概率。
· AI的戰略和學習方式和職業牌手相似,但是更準確。
量子位招聘
我們正在招募編譯、編輯、記者、市場、運營等多個崗位,工作地點在北京中關村,期待你的到來,一起體驗人工智慧的風起雲湧。
招聘”兩個字。今天AI界還有哪些事值得關注?
今天”,看我們全網搜羅的AI行業和研究動態。筆芯❤~qbitbot,如果你研究或者從事AI領域,小助手會把你帶入量子位的交流群裡。