《麻省理工科技評論》對談Deepmind：星際爭霸AI的未來在哪裡？

1月28日下午，穀歌 DeepMind 研究科學家Oriol Vinyals在結束演講之後，受Will Knight邀請，進行了一場圓桌討論：

Will Knight：《星際爭霸》是怎樣開展學習和研究的？

Oriol Vinyals：我們現在其實在做一個簡化版，

還在研究整個網路背後的一些基本的原理，我也在想把它寫成論文，介紹在測試的過程有哪些是比較容易的，哪些是比較難的。

Will Knight：你們為什麼選擇《星際爭霸》？大家都知道《星際爭霸》有很大的用戶群，而且很難。

Oriol Vinyals：因為在我自己還是伯克利大學學生的時候，就玩過《星際爭霸》。我和很多伯克利分校的同事在2010年開始做這個研究，當時我們在想的是如何爭霸、如何打敗敵方。《星際爭霸》是我們應用AI技術的一個出發點

在這個過程中，我們看到了很多挑戰，因此我們需要很多創新的演算法。需要更多的研究人員參與進來，設計一些新的問題和任務，看能否完成。

Will Knight：是否能夠將AI在《星際爭霸》中的技術應用到現實生活中，

Oriol Vinyals：現實世界缺少完成加強學習的完美資訊。比如穀歌，有很多人都在使用穀歌，它沒有周圍人的資訊而是依靠著巨大的資訊進行預測。我們是借助了用戶的力量。現在我們考慮的是怎麼樣借助應用去處理資料、加工資料。

其實我們在設計一個這樣的作業系統，它不會為所有的用戶所用，但是會幫助我們的用戶去減少很多能耗。

Will Knight：之前有Alpha Go1.0，現在又有2.0了，在1.0中，它已經獲勝了。新的一代，會有更多優勢，在《星際爭霸》中是否也有這樣的反覆運算和更新呢？你們有什麼戰略呢？

Oriol Vinyals：《星際爭霸》的應用在我看來是一個新的事物。我們為遊戲過程設計了不同的指令，不同的模式和範本，這使得整個玩《星際爭霸》的過程變得獨一無二。

這種指令會越來越高效。通過指令，我們基本上可以超越之前的演算法，我覺得這也是我們的一個亮點。

說到戰略，我們會訓練整個系統，收集整個星際爭霸玩家的行為進行分析。比如哪些走法可能沒有優勢，哪些玩法過於簡單。現在我們會為玩家提供一些打《星際爭霸》最簡單的走法。

Will Knight：為什麼你們把deepmind變成開源的。

Oriol Vinyals：謝謝你的問題，我們做開源，一開始是設計到了圍棋上。很多環境都有不同的組織模組，圍棋是一個相對來說比較簡單的邏輯。講到星際爭霸，首先我們必須要從機器學習的角度，去瞭解不同玩家對《星際爭霸》的看法。通過收集玩家的意見就會有更多優勢，比如說如何進行複盤，以及收集整個玩家的社群，怎麼比較看待第一代和第二代《星際爭霸》的版本，同時還有整個遊戲對玩家的影響，都可以進行研究。去年11月份我們在洛杉磯開會，也邀請玩家、相關的代理和一些開發者來共同討論。

Will Knight：其實每個人都想利用AI來下一步棋，就像Google、Facebook，他們都在競爭。

Oriol Vinyals：第一代大家都是盲目地競爭，

但是已經有很多年的競爭了。我們現在有不同版本的《星際爭霸》， 2009-2010年的時候就開始了整個過程的研發。我們已經看到《星際爭霸》不再是一個簡單的公司對公司的競爭了。現在我們到了第二版，會獲得更多的關注，甚至還有人機之間的一些混戰。

Will Knight：混戰聽上去非常地炫酷，未來是否有電腦和人類一塊來合作玩遊戲？

Oriol Vinyals：我們現在在AI的遊戲領域，用AI來設計AI的演算法，我們可以用《星際爭霸》的理念設計AI的技術。我們還在做一些早期的測試，比如閃電戰，它可以為人類玩家提供回饋。

Will Knight：AI是怎麼來評估人類玩家的玩法的？

Oriol Vinyals：整個模型現在非常簡單，它可以幫助我們的人類玩家玩得更好。人類在獲得AI的指導以後會變得更強大。我也希望整個玩家的社區會獲得AI的良性支持。

Will Knight：AI的程式師是不是能夠從遊戲中獲得一些益處？

Oriol Vinyals：我們知道有學徒式的學習方式。比如說在玩圍棋的時候，有自我的教學模式，從零級開始自學。但是玩《星際爭霸》的時候，我們不是從零開始，已經是在一定的基礎層上面來進行學習了。另外很多玩家他們還會考慮到一些網上的附加服務，大家會去觀察別人玩遊戲的方式，他們怎麼樣去移動滑鼠等。我自己也是個玩家，我也會關注別的玩家動滑鼠的方法、別人的遊戲行為。這對加強學習是一個新的關注點。比如說我自己玩遊戲的時候，可能我不能一直獲勝。那麼我還去觀察很多，我輸的時候會在遊戲的末尾觀察哪個人物角色會獲勝，通過觀察一些專業玩家的行為分析這些遊戲過程中的關鍵點。這也能説明我們進行類比學習，以及資料監管式的學習。

Will Knight：除了AlphaGo以外，很少有這樣打敗大師的機器，我們需要有更多相關的機器，如何幫助機器更加迅速高效地學習資料？

Oriol Vinyals：其實我有時候看到機器的學習能力也頗為震驚，現在的整個環境非常好。現在我們的遊戲機器人會很快的就完成任務，獲得獎勵。有時候我們會思考一個機器必須要反復的訓練同樣的一個行為才能夠熟悉。有時候我還在想，在自然選擇的過程中，我們會選擇哪一台機器。在《星際爭霸》中，我都會按照單場地圖來玩，並根據我個人過去的經驗，加上機器的自我演化，找到更好的戰略。

Will Knight：還有很多人想瞭解甚至想為deepmind工作，我想問一下您整個公司的氛圍如何？你工作的場景是什麼樣的？有什麼最新的項目？我覺得這不光有關電腦科學，還有神經科學等等。

Oriol Vinyals：我之前也提到過，我們的CEO是做神經科學出身的，其實這可以說是為我們公司定的基調，我也很喜歡我們公司。作為一個研究人員，科學家始終是有意思的一群人。我們有很好的工具，有一個很好的平臺，並且能夠清晰地制定一個計畫讓你瞭解接下來人工智慧會發生什麼。科學家也是有自己自由度的，比如你知道你自己的工作目標，也可以獲得同行之間的回饋，也會有很強內在的驅動力。

現在我們這個場所已經很大了，我們有很多的人、資料和很多懂得神經科學的科學家，還有一些遊戲的測試家，以及不同背景的有趣的人。所以這個工作環境也是非常有趣的，如果你能來這裡實習的話，我是非常推薦的。

Will Knight：你覺得最有趣的挑戰會是什麼？

Oriol Vinyals：玩這種電子遊戲，絕大多數都是非常有挑戰性的，都是非常複雜的遊戲，比如說策略遊戲等。他們會需要一些創新。在玩遊戲的過程中，我們能夠看到有一些新遊戲不斷地產生，我覺得最大的挑戰可能是要不斷學習吧。

現在也已經有一些關於機器人的報導和研究，像無人駕駛汽車這樣的新技術。現在一些環境要求我們有更好的現實模擬，這樣的話你才能確保現實中的安全的操作。比如無人駕駛汽車，他們能夠在相對真實的環境中進行，我們每天所做的工作，雖然很複雜的，但是離目標還是比較遠。

Will Knight：我們接下來是否可以AlphaGo一起打撲克牌？

Oriol Vinyals：可以期待的。

我也希望整個玩家的社區會獲得AI的良性支持。