您的位置:首頁>正文

人機對戰簡史:從國際象棋到德州撲克

2017年4月6日到10日, 由卡內基梅隆大學開發的人工智慧Libratus(“冷撲大師”)將在海南與六位中國的德州撲克選手進行為期五天, 累計長達45個小時的德州撲克人機對戰。

這是繼AlphaGo在圍棋領域大殺四方之後, AI對人類新的挑戰。 本文將為您梳理, 在過去二十年的歷史中, 人機對戰經歷了哪些關鍵節點, AI又發生了怎樣的進化?

國際象棋人機對戰

關鍵字:計算力

1996年2月, 美國費城, 一場在當時被稱作“世紀大戰”的較量。

國際象棋世界棋王卡斯帕羅夫面對的挑戰者, 並不是人。

卡斯帕羅夫的對手是IBM的超級國際象棋電腦“深藍”,

為了這次較量, 後者早已做足了準備。

在國際象棋每一個回合中, 一個玩家可以有大約35種不同的行棋選擇, 這些選擇推導結果是單執行緒的, 從A到B到C的推導選擇。 隨機不可控因素更小, 也不存在局部的輸贏影響整體戰局的關係。 對局雙方的決策能夠更直接地控制整個局面的走勢。

也就是說, 國際象棋的比賽, 很大程度上是棋手計算力的較量。

為了能比對手——世界棋王卡斯帕羅夫——多算准一步, 深藍中, 用C語言輸入了一百多年來優秀棋手的兩百多萬場對局。 這台電腦重1270公斤, 有32個節點, 每個節點有8塊專門為進行國際象棋對弈設計的處理器, 運行速度達一億次每秒。

然而在1996年的這場6局比賽中, 深藍最終以2:4落敗。

首次挑戰失敗後的一年裡, IBM的工程師們將“深藍”的運算速度又提高了一倍, 達到兩億次每秒。 但深藍並非電腦的王者。 事實上。 深藍的運算能力當時在全球超級電腦中居第259位元。 即便這樣, 深藍仍然可以算出所有路數來選擇最佳策略:新的深藍靠硬算可以預判12步,

而卡斯帕羅夫只能預判10步。

1997年5月, 深藍再次挑戰棋王卡斯帕羅夫。 在前五局2.5對2.5打平的情況下, 棋王第六盤決勝局中僅僅走了19步, 就敗給了深藍。 最終深藍電腦以3.5:2.5(1勝2負3平)獲勝, 成為首個在標準比賽時限內擊敗國際象棋世界冠軍的電腦系統。

比賽結束後, “深藍”小組公佈了一個秘密, 每場對局結束後, 小組都會根據卡斯帕羅夫的情況相應地修改特定的參數, “深藍”雖不會思考, 但這些工作實際上起到了強迫它“學習”的作用, 這也是卡斯帕羅夫始終無法找到一個對付“深藍”的有效辦法的主要原因。

電視問答節目對戰

關鍵字:自然語言理解, 資料庫, 計算力

2011年IBM的超級電腦Watson, 宣佈參加美國綜合挑戰節目《危險邊緣》。 這檔電視問答節目自1964年開播,

遊戲裡的問題包羅萬象, 幾乎涵蓋了人類文明的所有領域。

人類選手詹甯斯和魯特都是這個領域的頂級高手。 前者曾創下連續74場贏得比賽的紀錄, 後者在比賽中共拿到325萬美元獎金, 但仍然不是Watson的對手。 比賽進行到第三天, Watson以41413美元的分數鎖定勝局,

而兩位人類選手分別僅獲得19200美元和11200美元。

Watson的勝利背後, 是一個挑戰和兩個優勢。

Watson面臨的首要問題就是自然語言理解。 能否與主持人互動, 理解主持人自然語言的語義和語氣, 甚至區分問題裡的雙關, 隱喻等資訊, 是Watson能夠做出回答的前提。

突破了這一關之後, Watson就如魚得水了。 首先, 它擁有一個強大的資訊來源。 其中包括百科全書、字典、詞典、新聞和文學作品, 還包括資料庫、分類學和本體論。 雖然在比賽中沒有連接互聯網, 4TB的磁片上仍有2億頁結構化和非結構化的資訊供其使用。

其次, 它還有強大的計算能力。

Watson基於16TB記憶體、2880個Power7系列處理器——當前架構中最強的處理器。 這就意味著Watson的快。 第一是檢索快, 它能夠在3秒內檢索數百萬條資訊, 並選擇三個可能性最高的答案;第二是判斷快,它能夠迅速結合場上情況做出搶答與否的決策;第三是搶答快,當其中一個答案的可能性超過50%後,立即啟動搶答。它超越人類的搶答速度主導了整場比賽。

AlphaGo與圍棋人機大戰

關鍵字:深度學習,神經網路

圍棋曾經是人工智慧遙不可及的戰場。

國際象棋中,平均每回合有35種可能,一盤棋可以有80回合,而圍棋每回合有250種可能,一盤棋可以長達150回合。同時,一場圍棋比賽中出現的不同局面多達3的361次方種。

此外,圍棋博弈是多個局部戰爭合成的最終結果,同時局部之間相互影響,無法被演算法窮舉。更專業點說,圍棋難的地方在於它的估值函數非常不平滑,差一個子盤面就可能天翻地覆。

穀歌的AlphaGo程式突破了傳統電腦的“固定”程式邏輯,融入了深度學習和神經網路的能力。這個深度神經網路由策略網路和值網路兩部分組成,策略網路負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的。這樣AI就可以重點分析那些有戲的棋著。值網路負責減少搜索的深度——AI會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑。

AlphaGo利用這兩個工具學習了人類所有的棋譜,經過了幾千萬次的自我對弈與學習,不僅能夠模仿人類棋手的思考,甚至已能夠超越。2016年3月,在與AlphaGo對決的人機大戰中,來自韓國的世界圍棋冠軍李世石以1:4告負。

除了計算能力外,這場比賽還暴露出機器的其他優勢:賽場上,人會因為比賽環境和壓力等外部或情緒因素影響判斷,而機器不會;在數小時的鏖戰中,人會因疲倦而分神,機器卻能永遠保持專注。賽場外,人每天可做的練習是有限的,AI則能以上萬倍於人類的速度練習。

李世石在比賽後接受採訪時說道:“要適應與AlphaGo的比賽,首個挑戰就是心理方面,需要非常專注。我繼續和它下不一定能贏,因為無法比它更專注,這些方面是贏不了它的。”

2017年3月,AlphaGo的升級版Master橫空出世,通過下快棋連勝職業高手60盤,其中就包括了中國最強棋手柯潔。

AlphaGo2.0發佈於2017年年初,相比於1.0,這個版本能稱得上真正的“自我學習”。1.0版本的AlphaGo以人類所有棋譜為藍本,AlphaGo再怎麼走也只是算出了人類棋手曾走過的某一步,頂多算是個完美的“人類棋手”。而2.0版本AlphaGo就利用這個“完美棋手”的估值函數自我對局和“深度學習”,超出了人類棋譜的範圍,是真正機器算出來的棋法。

2017年4月,AlphaGo還將有一場與柯潔的人機對戰,這或許將會是人機在圍棋領域的最後一戰。

德州撲克人機大戰

關鍵字:不完美資訊的博弈

2017年1月11日至1月30日,美國卡內基梅隆大學開發的人工智慧Libratus(“冷撲大師”)與4名人類頂尖德州撲克選手之間的“人機大戰”在美國匹茲堡進行,經過了為期20天,總計對戰12萬手牌的賽程,最終人工智慧取得勝利。

與之前和人類在棋類的競賽中比拼智力不同,AI在德州撲克專案上挑戰人類反映了AI更值得關注的進化方向。

圍棋、國際象棋比賽中雙方所有資訊一覽無餘,本質上是對稱資訊的博弈,而德州撲克是資訊不對稱的博弈,每個選手只能看到自己的手牌。這就決定了人工智慧首先需要面對大量不完整的資訊。

因此,德撲背後是一個大型的AI談判演算法。“冷撲大師”並不基於大資料、深度學習、強搜索等傳統AI方法;而是基於博弈論,直接在比賽同時動態優化勝率最高的數學模型。這其中不僅包含了概率統計和運籌策略,也包含了巨大的資訊處理計算量。CMU電腦學院院長Andrew Moore在接受採訪時說道:“冷撲大師的程式如果要讓人類去計算,大概得花人類1000萬個小時。”

與此同時,冷撲大師也面臨著挑戰。德州撲克更接近人性,因為資訊是有隱藏的,牌手可以誠實地表達,也可以欺騙地表達,即德州撲克中的詐唬(bluff)技術。而機器明顯無法通過對手的動作表情判斷對手牌的強弱,也無法通過肢體、神態表演來蒙蔽對手。

百度首席科學家吳恩達(Andrew Ng)就曾指出,“撲克(不完美資訊博弈)是人工智慧最難攻克的遊戲之一。每一步沒有所謂的最優解,人工智慧要採取隨機的策略,這樣它詐唬的時候對方才會吃不准。”

相比圍棋AI,德州撲克AI應用空間更廣泛。現實世界中,不完美資訊博弈才是常態,例如在商業談判、醫療方案制定等領域,這些過去被認為人類擁有獨特優勢的領域,未來都會面臨機器的挑戰。

結語:

從1996年到2017年,人工智慧與人類的四次競賽從側面反映出了AI的進化:從計算能力超越人類到學會自然語言理解,再到深度學習直至掌握不完美資訊博弈的能力。在這21年中,機器不僅智商越來越高,在情商上也越來越不輸於人類。尤其是當AI在其最難攻克的遊戲德州撲克上與人類叫板,這意味著什麼,又將帶來哪些機會和挑戰?

4月10日上午10點到12點,極客公園將攜手創新工廠,和德州撲克AI“冷撲大師”背後的主創團隊卡內基梅隆大學電腦系教授Tuomas Sandholm,創新工廠董事長李開複博士及五位國內科技公司創始人一起探討“冷撲大師”背後的技術邏輯以及AI會在未來產生哪些更深層次的影響。

並選擇三個可能性最高的答案;第二是判斷快,它能夠迅速結合場上情況做出搶答與否的決策;第三是搶答快,當其中一個答案的可能性超過50%後,立即啟動搶答。它超越人類的搶答速度主導了整場比賽。

AlphaGo與圍棋人機大戰

關鍵字:深度學習,神經網路

圍棋曾經是人工智慧遙不可及的戰場。

國際象棋中,平均每回合有35種可能,一盤棋可以有80回合,而圍棋每回合有250種可能,一盤棋可以長達150回合。同時,一場圍棋比賽中出現的不同局面多達3的361次方種。

此外,圍棋博弈是多個局部戰爭合成的最終結果,同時局部之間相互影響,無法被演算法窮舉。更專業點說,圍棋難的地方在於它的估值函數非常不平滑,差一個子盤面就可能天翻地覆。

穀歌的AlphaGo程式突破了傳統電腦的“固定”程式邏輯,融入了深度學習和神經網路的能力。這個深度神經網路由策略網路和值網路兩部分組成,策略網路負責減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的。這樣AI就可以重點分析那些有戲的棋著。值網路負責減少搜索的深度——AI會一邊推算一邊判斷局面,局面明顯劣勢的時候,就直接拋棄某些路線,不用一條道算到黑。

AlphaGo利用這兩個工具學習了人類所有的棋譜,經過了幾千萬次的自我對弈與學習,不僅能夠模仿人類棋手的思考,甚至已能夠超越。2016年3月,在與AlphaGo對決的人機大戰中,來自韓國的世界圍棋冠軍李世石以1:4告負。

除了計算能力外,這場比賽還暴露出機器的其他優勢:賽場上,人會因為比賽環境和壓力等外部或情緒因素影響判斷,而機器不會;在數小時的鏖戰中,人會因疲倦而分神,機器卻能永遠保持專注。賽場外,人每天可做的練習是有限的,AI則能以上萬倍於人類的速度練習。

李世石在比賽後接受採訪時說道:“要適應與AlphaGo的比賽,首個挑戰就是心理方面,需要非常專注。我繼續和它下不一定能贏,因為無法比它更專注,這些方面是贏不了它的。”

2017年3月,AlphaGo的升級版Master橫空出世,通過下快棋連勝職業高手60盤,其中就包括了中國最強棋手柯潔。

AlphaGo2.0發佈於2017年年初,相比於1.0,這個版本能稱得上真正的“自我學習”。1.0版本的AlphaGo以人類所有棋譜為藍本,AlphaGo再怎麼走也只是算出了人類棋手曾走過的某一步,頂多算是個完美的“人類棋手”。而2.0版本AlphaGo就利用這個“完美棋手”的估值函數自我對局和“深度學習”,超出了人類棋譜的範圍,是真正機器算出來的棋法。

2017年4月,AlphaGo還將有一場與柯潔的人機對戰,這或許將會是人機在圍棋領域的最後一戰。

德州撲克人機大戰

關鍵字:不完美資訊的博弈

2017年1月11日至1月30日,美國卡內基梅隆大學開發的人工智慧Libratus(“冷撲大師”)與4名人類頂尖德州撲克選手之間的“人機大戰”在美國匹茲堡進行,經過了為期20天,總計對戰12萬手牌的賽程,最終人工智慧取得勝利。

與之前和人類在棋類的競賽中比拼智力不同,AI在德州撲克專案上挑戰人類反映了AI更值得關注的進化方向。

圍棋、國際象棋比賽中雙方所有資訊一覽無餘,本質上是對稱資訊的博弈,而德州撲克是資訊不對稱的博弈,每個選手只能看到自己的手牌。這就決定了人工智慧首先需要面對大量不完整的資訊。

因此,德撲背後是一個大型的AI談判演算法。“冷撲大師”並不基於大資料、深度學習、強搜索等傳統AI方法;而是基於博弈論,直接在比賽同時動態優化勝率最高的數學模型。這其中不僅包含了概率統計和運籌策略,也包含了巨大的資訊處理計算量。CMU電腦學院院長Andrew Moore在接受採訪時說道:“冷撲大師的程式如果要讓人類去計算,大概得花人類1000萬個小時。”

與此同時,冷撲大師也面臨著挑戰。德州撲克更接近人性,因為資訊是有隱藏的,牌手可以誠實地表達,也可以欺騙地表達,即德州撲克中的詐唬(bluff)技術。而機器明顯無法通過對手的動作表情判斷對手牌的強弱,也無法通過肢體、神態表演來蒙蔽對手。

百度首席科學家吳恩達(Andrew Ng)就曾指出,“撲克(不完美資訊博弈)是人工智慧最難攻克的遊戲之一。每一步沒有所謂的最優解,人工智慧要採取隨機的策略,這樣它詐唬的時候對方才會吃不准。”

相比圍棋AI,德州撲克AI應用空間更廣泛。現實世界中,不完美資訊博弈才是常態,例如在商業談判、醫療方案制定等領域,這些過去被認為人類擁有獨特優勢的領域,未來都會面臨機器的挑戰。

結語:

從1996年到2017年,人工智慧與人類的四次競賽從側面反映出了AI的進化:從計算能力超越人類到學會自然語言理解,再到深度學習直至掌握不完美資訊博弈的能力。在這21年中,機器不僅智商越來越高,在情商上也越來越不輸於人類。尤其是當AI在其最難攻克的遊戲德州撲克上與人類叫板,這意味著什麼,又將帶來哪些機會和挑戰?

4月10日上午10點到12點,極客公園將攜手創新工廠,和德州撲克AI“冷撲大師”背後的主創團隊卡內基梅隆大學電腦系教授Tuomas Sandholm,創新工廠董事長李開複博士及五位國內科技公司創始人一起探討“冷撲大師”背後的技術邏輯以及AI會在未來產生哪些更深層次的影響。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示