華文網

一場“一邊倒”的人機對抗:《星際》到底比圍棋難在哪兒?

目前在《星際爭霸》的專案上,AI還不能給人類選手帶來哪怕一點點的壓力。

與之前AlphaGo挑戰柯潔和李世石時的萬眾矚目不同,當人工智慧再一次想要挑戰人腦時,受到的關注卻遠沒有上一次多。這一次它的對手不是圍棋,而是《星際爭霸》。

前段時間,韓國首爾世宗大學官方舉辦了世界首屆人類與星際爭霸AI的對抗賽,代表人類出戰的是前《星際爭霸》項目職業選手:Stork(宋炳具),與之對抗的對手則是四個不同的AI,韓國世宗大學金正中教授組織開發的“MJ Bot”,

以及來自澳洲的“ZZZK”,挪威的“TSCMO”和Facebook開發的Cherry Pi。

無論是《星際爭霸》還是《星際爭霸2》,韓國幾乎可以說“一直代表著這個遊戲的最高實力”。因此,由韓國的科研機構來主辦這場比賽自然是相當有說服力的。

經常看《星際爭霸》職業比賽的人,一定對Stork(宋炳具)不會陌生。

作為星際1時代的“四皇之一”與星際2時代前三星戰隊總教練的他,綽號“總司令”,拿過一次WCG冠軍和五次亞軍,在圈子內就是類似于李世石和柯潔一樣的存在。他的比賽特點就是發揮相當穩,很少給對手留下破綻。從這一點來看,Stork看起來就是人類選手裡最像電腦的人。

而作為電腦AI隊伍的頭號種子,電腦AI“MJ Bot”也不遑多讓。該程式從2011年開發至今已經多次亮相,而且獲獎無數,被譽為現今韓國最好的“星際爭霸AI”。

當現階段最強電腦AI碰上前職業選手,有人猜測二者會殺得難解難分。尤其是在看過了AlphaGo在圍棋上的強勢之後,有人反而覺得電腦的勝算會更高一點。

但是比賽的結果卻相當的“平淡”,第一局和MJ的比賽,Stork祭出空投戰術,

拿到場面優勢之後順手就拆了對手老家。第二局對上ZZZK,Stork和AI同時拿出速推打法,結果AI仍舊敗下陣來。第三局面對TSCMO,Stork仍然是速勝。第四局裡,Cherry Pi同樣也沒有給人類選手帶來哪怕一點點壓力。

至少從目前的情況來看,AI想要在《星際爭霸》這個項目上戰勝人類,還有很長的路要走。

層層選拔的機器人“對手”

在過去的幾年之間,以《星際爭霸》為基礎展開的人工智慧研究一直在上演,其歷史甚至比圍棋上的較量還要早。最著名而且歷史最悠久的,肯定要數美國加州大學聖克魯茲分校舉辦的AIIDE了。

這場名為AIIDE的比賽,其實本質上是一場人工智慧之間的比賽,說白了就是“電腦打電腦”,從2010年開始,每年一屆,到今年已是第8年。

每年都會有來自世界各地的大學或者實驗室,帶來自己的作品來這裡進行互相比拼。包括這次比賽的三個AI都是AIIDE的常客,來自澳洲的“ZZZK”是2015年的亞軍,來自挪威的“TSCMO”是當年的冠軍。而韓國的“MJ”則是名為“Xelenaga”的老牌星際AI的升級版,在AIIDE賽場也是多年混跡於前十名的常客。可以說,這三個在現階段已經是AI在《星際爭霸》領域裡的最強選手了。

從2012年到2016年的五屆AI對抗賽裡,都能看到“TSCMO”,“ZZZK”和“Xelenaga”(即MJ)這三台AI的身影

而在每年的AIIDE最後都有一個保留節目:最後獲得冠軍的電腦AI會與一名非專業的人類選手進行較量。雖然這樣的表演賽看起來更像是一個非正式的“助興節目”,但是直到2017年的AIIDE,電腦AI對陣人類選手還未嘗勝績——哪怕對手只是普通的星際愛好者。

AIIDE的組織者Dave Churchill曾就此表示:“即使最頂尖的電腦AI,目前也只達到了低級業餘的水準(在星際爭霸項目中),在人類選手面前就像過家家一樣,想要達到AlphaGo在圍棋方面的壟斷優勢,至少還有5-10年的路要走……但是誰也說不好明天會發生什麼。”

《星際爭霸》究竟比圍棋難在哪兒?

說AIIDE裡的人機對抗還是一場不成熟、不正式的助興節目,這次韓國舉辦的比賽應該會讓這個論斷更有說服力。隨著時間的進步,電腦硬體和智慧演算法的進步要遠快於人腦。所以至少到比賽開始之前,無論是星際職業選手,觀眾還是科研人員,對於結果的預測都很難達成共識。

《麻省理工科技評論》雜誌在賽前曾採訪過兩位頂尖職業選手:2016年《星際爭霸2》WCS世界錦標賽的冠軍ByuN,以及曾經世界最強的蟲族選手之一,現已退役的“暴君”Jaedong。

二人均在採訪中表示,願意代表人類與星際AI來一場公開的較量,但是他們對於誰勝誰負的看法卻截然相反,恰好可以代表大部分人對於這場比賽的兩種態度。

24歲的ByuN很有信心戰勝人工智慧。“在有生之年,人工智慧絕不是我的對手。” 他說,“在玩《星際爭霸》時,你需要對許多未知和變數作出迅速的反應,但是我發現AlphaGo並不擅長處理突發事件……想要設計一個同時可以應對突發情況,又要對比賽的長期發展做出預測的AI是很難的。”

像這樣精彩的極限操作,沒有任何一個人類選手可以保證在比賽中萬無一失

而Jaedong則持相反的觀點,他認為人工智慧可以輕鬆戰勝人類選手。他說:“AI不知疲倦,而且在重壓之下也不會犯錯,並且擁有人類生理無法實現的手速(APM), 如果人工智慧技術達到了一個人類無法跟上的速度,那麼它將輕鬆戰勝人類。”

職業星際選手的手速在人工智慧面前不值一提

這兩種觀點的矛盾之處,恰恰是人們對於“想要贏,什麼條件最重要”的討論。換句話講,就是在問:AI為什麼在《星際爭霸》項目上會輸呢?或者是問:為什麼要選擇《星際爭霸》這款遊戲來作為研究人工智慧AI的樣本呢?

相比於之前AlphaGo擅長的“完全資訊博弈”的圍棋,《星際爭霸》顯然是一個擁有更多不確定因素的遊戲。在圍棋對弈時,AI可以看清楚棋盤上的每一個位置,然後依靠自己比人腦強大無數倍的計算能力,衡量每一步落子所帶來的收益,然後確定最優的方案。這種能力是人腦再開發到極限也是無法實現的。

而在遊戲中,AI的這種優勢其實並無太多用武之地。熟悉RTS(即時戰略)遊戲的玩家應該都瞭解“戰爭迷霧”這種機制。AI並沒有“作弊”讀取正在進行中的遊戲的記憶體資料的話,它是無法得知玩家現階段在佈置何種戰術,因此也就無法提前做出“最優判斷”。而這種判斷對於RTS的獲勝來說才是至關重要的。即使AI洞悉了玩家的戰術,他也未必能即時做出改變,甚至有可能被玩家“虛晃一槍”。

職業選手ByuN就表示他會使用“非常規的策略和戰術”來迷惑AI。“我會阻止它開視野,發現我的基地佈局和建築順序。”ByuN說,“如果我的基地被發現,我會選擇停止所有建築計畫。”

AI在資訊對等的情況下,臨機應變的能力不如人類,星際需要玩家對資源控制,升級先後順序,不同種族和兵種相互克制等方面有整體的認識。這種互相牽制的效果,即是遊戲平衡性的由來。這方面的整體考慮遠比下圍棋時只考慮黑子和白子的位置更加複雜。

考慮到人工智慧在APM手速和精確微操方面優勢明顯,這可能成為另外一個能決定比賽最終結果的重要因素。

曾經有人設計出一種 “悍馬2000(Automation 2000)”的腳本,極限APM達到15000(頂尖職業選手APM大約為200+),實現了一系列諸如“100只狗拆掉20輛坦克”、“機槍兵甩毒爆”、“無雙運輸機甩牛”等眼花繚亂的壯舉。如果在現實比賽中出現,無疑可以給人類玩家造成巨大的心裡壓力,甚至一舉奠定勝利基礎。

100只狗 VS 20輛坦克

雖然頂尖職業選手也曾在比賽中上演過類似的操作,但是畢竟在正式比賽的高壓之下,沒人敢說一定能成功。在這種前提下,電腦與人腦看起來是在不平衡的前提下進行對決。官方似乎也注意到了這一點,暴雪和DeepMind團隊也強調過,未來的人工智慧並不會擁有非人類的逆天操作,他們將會通過限制人工智慧的APM來保證它的操作,也會有類似人類的極限和失誤。

電腦控制下的機槍兵甩毒爆

但是藝高人膽大的ByuN再一次站出來反對了,他說:“任何限制人工智慧的舉動都會令‘人機大戰’失去意義。 ”

啟示

目前除了這些老牌的星際AI在不斷進化之外,也有更多人工智慧科研團隊加入進來。其中最有代表性的就是曾主導了AlphaGo開發的DeepMind團隊。

AlphaGo 2.0在版本(即完勝柯潔的版本)時,已經可以通過自我博弈達到學習的目的。如果這種技術應用到遊戲中的話,可能會徹底改變目前星際AI打法都是人工設定好的,容易被針對的現狀,甚至會誕生出一些新的戰術和玩法,以啟發職業選手。

在2016年的暴雪嘉年華開幕式上,穀歌的研究人員就上臺宣佈了DeepMind目前和暴雪共同開發星際AI的計畫和工作進展

而由Elon Musk贊助的人工智慧專案OpenAI,也同樣將目標瞄準了《星際爭霸》為代表的對抗性☆禁☆遊☆禁☆戲。在今年的Dota2 Ti7全球總決賽上,它就以壓倒性的優勢戰勝了代表人類玩家的頂級選手Dendi。雖然二者對決並非建立在完整的遊戲規則之上,但是在中路一對一對線的表演中,OpenAI在走位,補兵的操作上沒有一絲失誤,這也再一次映證了電腦AI在操作方面仍然有著先天性的優勢。

來自中國阿裡巴巴人工智慧實驗室和倫敦大學的研究人員也在以星際為樣本,研究人工智慧對多種單位協同控制的能力,並且取得了不錯的成績。

眾多科研機構能夠如此順利進行星際AI研究,要多虧了暴雪官方在遊戲上對開放性做出的讓步。針對《星際爭霸1》,暴雪專門針對母巢之戰版本開放了BWAPI程式設計介面,保證了開發者可以針對遊戲操作來不斷優化人工智慧的演算法,同時還保證了“公平性”:AI基本上只能按照人類的思維方式向遊戲下達指令,基本上人類可以做到哪些事情,AI也就只能做到這個地步,從而杜絕了對於電腦會“作弊”的擔憂。

針對《星際爭霸2》,暴雪則和DeepMind團隊合作推出了SC2LE(StarCraft II Learning Environment)——一個星際爭霸2(StarCraft2)的工具包,為研究提供了非常大的幫助。

通過暴雪開放的官方介面,已經可以測試AI在某些特殊任務中的行為

顯然,研究一款遊戲AI不是所有研發人員的最終目的。穀歌曾經透露,更多的意義是通過這種研究來幫助人類改善生活。

如果僅從《星際爭霸》這款遊戲來看,人工智慧在不久的將來,可以成為人類選手訓練的最佳伴侶。更進一步講,當人工智慧技術成熟之後,提供給人類的可能更像是星際爭霸中副官的形象,協助我們分析局面,提供建議。當然,這樣的前提是我們電腦AI能“更像一個真人”或者一個“冷靜的旁觀者”,這樣最終的決定權就仍然掌握在我們自己手中。

最後提醒一句,那些曾經給柯潔出主意,讓他“拔掉AlphaGo插頭”的人要注意了,星際AI可不吃這一套。因為《星際爭霸2》對戰時掉線,是可以重連的。

每年都會有來自世界各地的大學或者實驗室,帶來自己的作品來這裡進行互相比拼。包括這次比賽的三個AI都是AIIDE的常客,來自澳洲的“ZZZK”是2015年的亞軍,來自挪威的“TSCMO”是當年的冠軍。而韓國的“MJ”則是名為“Xelenaga”的老牌星際AI的升級版,在AIIDE賽場也是多年混跡於前十名的常客。可以說,這三個在現階段已經是AI在《星際爭霸》領域裡的最強選手了。

從2012年到2016年的五屆AI對抗賽裡,都能看到“TSCMO”,“ZZZK”和“Xelenaga”(即MJ)這三台AI的身影

而在每年的AIIDE最後都有一個保留節目:最後獲得冠軍的電腦AI會與一名非專業的人類選手進行較量。雖然這樣的表演賽看起來更像是一個非正式的“助興節目”,但是直到2017年的AIIDE,電腦AI對陣人類選手還未嘗勝績——哪怕對手只是普通的星際愛好者。

AIIDE的組織者Dave Churchill曾就此表示:“即使最頂尖的電腦AI,目前也只達到了低級業餘的水準(在星際爭霸項目中),在人類選手面前就像過家家一樣,想要達到AlphaGo在圍棋方面的壟斷優勢,至少還有5-10年的路要走……但是誰也說不好明天會發生什麼。”

《星際爭霸》究竟比圍棋難在哪兒?

說AIIDE裡的人機對抗還是一場不成熟、不正式的助興節目,這次韓國舉辦的比賽應該會讓這個論斷更有說服力。隨著時間的進步,電腦硬體和智慧演算法的進步要遠快於人腦。所以至少到比賽開始之前,無論是星際職業選手,觀眾還是科研人員,對於結果的預測都很難達成共識。

《麻省理工科技評論》雜誌在賽前曾採訪過兩位頂尖職業選手:2016年《星際爭霸2》WCS世界錦標賽的冠軍ByuN,以及曾經世界最強的蟲族選手之一,現已退役的“暴君”Jaedong。

二人均在採訪中表示,願意代表人類與星際AI來一場公開的較量,但是他們對於誰勝誰負的看法卻截然相反,恰好可以代表大部分人對於這場比賽的兩種態度。

24歲的ByuN很有信心戰勝人工智慧。“在有生之年,人工智慧絕不是我的對手。” 他說,“在玩《星際爭霸》時,你需要對許多未知和變數作出迅速的反應,但是我發現AlphaGo並不擅長處理突發事件……想要設計一個同時可以應對突發情況,又要對比賽的長期發展做出預測的AI是很難的。”

像這樣精彩的極限操作,沒有任何一個人類選手可以保證在比賽中萬無一失

而Jaedong則持相反的觀點,他認為人工智慧可以輕鬆戰勝人類選手。他說:“AI不知疲倦,而且在重壓之下也不會犯錯,並且擁有人類生理無法實現的手速(APM), 如果人工智慧技術達到了一個人類無法跟上的速度,那麼它將輕鬆戰勝人類。”

職業星際選手的手速在人工智慧面前不值一提

這兩種觀點的矛盾之處,恰恰是人們對於“想要贏,什麼條件最重要”的討論。換句話講,就是在問:AI為什麼在《星際爭霸》項目上會輸呢?或者是問:為什麼要選擇《星際爭霸》這款遊戲來作為研究人工智慧AI的樣本呢?

相比於之前AlphaGo擅長的“完全資訊博弈”的圍棋,《星際爭霸》顯然是一個擁有更多不確定因素的遊戲。在圍棋對弈時,AI可以看清楚棋盤上的每一個位置,然後依靠自己比人腦強大無數倍的計算能力,衡量每一步落子所帶來的收益,然後確定最優的方案。這種能力是人腦再開發到極限也是無法實現的。

而在遊戲中,AI的這種優勢其實並無太多用武之地。熟悉RTS(即時戰略)遊戲的玩家應該都瞭解“戰爭迷霧”這種機制。AI並沒有“作弊”讀取正在進行中的遊戲的記憶體資料的話,它是無法得知玩家現階段在佈置何種戰術,因此也就無法提前做出“最優判斷”。而這種判斷對於RTS的獲勝來說才是至關重要的。即使AI洞悉了玩家的戰術,他也未必能即時做出改變,甚至有可能被玩家“虛晃一槍”。

職業選手ByuN就表示他會使用“非常規的策略和戰術”來迷惑AI。“我會阻止它開視野,發現我的基地佈局和建築順序。”ByuN說,“如果我的基地被發現,我會選擇停止所有建築計畫。”

AI在資訊對等的情況下,臨機應變的能力不如人類,星際需要玩家對資源控制,升級先後順序,不同種族和兵種相互克制等方面有整體的認識。這種互相牽制的效果,即是遊戲平衡性的由來。這方面的整體考慮遠比下圍棋時只考慮黑子和白子的位置更加複雜。

考慮到人工智慧在APM手速和精確微操方面優勢明顯,這可能成為另外一個能決定比賽最終結果的重要因素。

曾經有人設計出一種 “悍馬2000(Automation 2000)”的腳本,極限APM達到15000(頂尖職業選手APM大約為200+),實現了一系列諸如“100只狗拆掉20輛坦克”、“機槍兵甩毒爆”、“無雙運輸機甩牛”等眼花繚亂的壯舉。如果在現實比賽中出現,無疑可以給人類玩家造成巨大的心裡壓力,甚至一舉奠定勝利基礎。

100只狗 VS 20輛坦克

雖然頂尖職業選手也曾在比賽中上演過類似的操作,但是畢竟在正式比賽的高壓之下,沒人敢說一定能成功。在這種前提下,電腦與人腦看起來是在不平衡的前提下進行對決。官方似乎也注意到了這一點,暴雪和DeepMind團隊也強調過,未來的人工智慧並不會擁有非人類的逆天操作,他們將會通過限制人工智慧的APM來保證它的操作,也會有類似人類的極限和失誤。

電腦控制下的機槍兵甩毒爆

但是藝高人膽大的ByuN再一次站出來反對了,他說:“任何限制人工智慧的舉動都會令‘人機大戰’失去意義。 ”

啟示

目前除了這些老牌的星際AI在不斷進化之外,也有更多人工智慧科研團隊加入進來。其中最有代表性的就是曾主導了AlphaGo開發的DeepMind團隊。

AlphaGo 2.0在版本(即完勝柯潔的版本)時,已經可以通過自我博弈達到學習的目的。如果這種技術應用到遊戲中的話,可能會徹底改變目前星際AI打法都是人工設定好的,容易被針對的現狀,甚至會誕生出一些新的戰術和玩法,以啟發職業選手。

在2016年的暴雪嘉年華開幕式上,穀歌的研究人員就上臺宣佈了DeepMind目前和暴雪共同開發星際AI的計畫和工作進展

而由Elon Musk贊助的人工智慧專案OpenAI,也同樣將目標瞄準了《星際爭霸》為代表的對抗性☆禁☆遊☆禁☆戲。在今年的Dota2 Ti7全球總決賽上,它就以壓倒性的優勢戰勝了代表人類玩家的頂級選手Dendi。雖然二者對決並非建立在完整的遊戲規則之上,但是在中路一對一對線的表演中,OpenAI在走位,補兵的操作上沒有一絲失誤,這也再一次映證了電腦AI在操作方面仍然有著先天性的優勢。

來自中國阿裡巴巴人工智慧實驗室和倫敦大學的研究人員也在以星際為樣本,研究人工智慧對多種單位協同控制的能力,並且取得了不錯的成績。

眾多科研機構能夠如此順利進行星際AI研究,要多虧了暴雪官方在遊戲上對開放性做出的讓步。針對《星際爭霸1》,暴雪專門針對母巢之戰版本開放了BWAPI程式設計介面,保證了開發者可以針對遊戲操作來不斷優化人工智慧的演算法,同時還保證了“公平性”:AI基本上只能按照人類的思維方式向遊戲下達指令,基本上人類可以做到哪些事情,AI也就只能做到這個地步,從而杜絕了對於電腦會“作弊”的擔憂。

針對《星際爭霸2》,暴雪則和DeepMind團隊合作推出了SC2LE(StarCraft II Learning Environment)——一個星際爭霸2(StarCraft2)的工具包,為研究提供了非常大的幫助。

通過暴雪開放的官方介面,已經可以測試AI在某些特殊任務中的行為

顯然,研究一款遊戲AI不是所有研發人員的最終目的。穀歌曾經透露,更多的意義是通過這種研究來幫助人類改善生活。

如果僅從《星際爭霸》這款遊戲來看,人工智慧在不久的將來,可以成為人類選手訓練的最佳伴侶。更進一步講,當人工智慧技術成熟之後,提供給人類的可能更像是星際爭霸中副官的形象,協助我們分析局面,提供建議。當然,這樣的前提是我們電腦AI能“更像一個真人”或者一個“冷靜的旁觀者”,這樣最終的決定權就仍然掌握在我們自己手中。

最後提醒一句,那些曾經給柯潔出主意,讓他“拔掉AlphaGo插頭”的人要注意了,星際AI可不吃這一套。因為《星際爭霸2》對戰時掉線,是可以重連的。