華文網

穀歌DeepMind繼AlphaGo之後,準備用AI挑戰遊戲《星際爭霸》

Oriol Vinyals曾是1990年代西班牙《星際爭霸》全國冠軍。在他看來,這款科幻策略遊戲讓他在生活中擁有了更強的戰略思維。不可否認,Vinyals的戰略思維也獲得了回報:在巴塞羅完成電信工程和數學的學習後,

他去過微軟研究院實習,而後獲得了加州大學伯克利的電腦博士學位,接著又加入了穀歌大腦團隊,從事人工智慧開發工作,不久又轉到穀歌旗下的DeepMind團隊。

如今,他再次跟《星際爭霸》打起了交道。但這一次他不是玩家,而是要教機器人怎麼玩這個遊戲,

也就是說,在人工智慧成為全球最優秀的圍棋選手後,星際成為了它下一個要攻克目標。

DeepMind與《星際爭霸》的開發商暴雪展開合作,讓人工智慧研究人員從以往數百萬次對戰中進行學習。他們的目標之一,就是開發一套可以擊敗人類的人工智慧系統,就像曾打敗了圍棋世界冠軍李世乭和柯潔的AlphaGo。而最終的目標是將這一技術應用于現實世界,而不僅僅停留在遊戲層面。

暴雪首席軟體工程師Jacob Repp表示:“我們正試圖理解人類大腦的工作方式。 如果我們能得到這種高品質的資料流程-——人類玩兒遊戲時的原始輸入及其結果 ——這對行為研究的人來說是非常有用的資料。”

《星際爭霸2》對人工智慧研究人員來說是個有趣的挑戰。

與國際象棋或圍棋不同,星際玩家的資訊並不完美。這種“戰爭迷霧”意味著玩家(真實的或虛擬的)必須制定計劃,做出決定,或者對那些只會在幾分鐘後才能產生後果的行為作出回應。正如DeepMind的研究人員所說,其結果“在時間信用分配和探索上將面臨大量挑戰”。

暴雪已經使用神經網路來評估玩家技能,而其依據是他們鍵盤和滑鼠的輸入資訊、排兵佈陣的方法以及玩遊戲的效率等,

這些信號可以讓遊戲更加有趣,或者讓對戰雙方更加均衡。

但是,想要讓人工智慧玩《星際爭霸2》,就必須讓他們“看到”遊戲中的3D地圖,並快速準確地對其進行解讀。

DeepMind的首次測試,涉及到神經網路和人工智慧的訓練,之後再將其應用投入到遊戲中。

即便沒有進一步的指令,人工智慧也可以隨意在地圖上走動、移動鏡頭甚至排兵佈陣。

在加入DeepMind之前,Vinyals曾開發圖片搜索功能和Gmail的“智慧回復”功能。該團隊還致力於語音辨識,讓人工智慧記住不同人的說話方式,從而完成在再次遇到該聲音時,可以完成識別。

“在《星際爭霸2》中,這也是需要解決的問題。”Vinyals說。對人工智慧來說,記住他們遇到的東西,同時理解行為意義,就需要使用LSTM神經網路。“電腦可以把某個資料的記憶保留數十年的時間,但現在,這種記憶不僅需要保存,在未來需要之時還能完成資訊調取。”

當然現在星際人工智慧的研究,還處於早期的階段。最近在首爾的一場競賽中,《星際爭霸》職業玩家宋炳具用了不到半小時就擊敗了4個人工智慧機器人。但他也表示,機器人的防守打法“有時候讓人震驚”。

雖然過去20年Vinyals玩《星際爭霸》機會並不多,但這位前西班牙冠軍卻對自己的《星際爭霸》技術滿懷信心。

“電腦可以把某個資料的記憶保留數十年的時間,但現在,這種記憶不僅需要保存,在未來需要之時還能完成資訊調取。”

當然現在星際人工智慧的研究,還處於早期的階段。最近在首爾的一場競賽中,《星際爭霸》職業玩家宋炳具用了不到半小時就擊敗了4個人工智慧機器人。但他也表示,機器人的防守打法“有時候讓人震驚”。

雖然過去20年Vinyals玩《星際爭霸》機會並不多,但這位前西班牙冠軍卻對自己的《星際爭霸》技術滿懷信心。