專訪 UCL 教授汪軍：中國能不能出現像 DeepMind 這樣的企業？| CCF-GAIR 2017

分類＼科技
時間＼2017-07-15

雷鋒網 AI 科技評論按：想必大家都對前段時間火遍學術圈的 BiCNet 並不陌生，

這個 UCL 與阿裡巴巴合作的多智慧雙向協作網路，可在星際爭霸中研究多智慧體間的協作學習。在今年由中國電腦學會（CCF）主辦，雷鋒網與香港中文大學（深圳）承辦的第二屆CCF-GAIR全球人工智慧與機器人峰會上，我們榮幸地邀請到了倫敦大學學院（UCL）電腦系教授汪軍博士做了主題演講。

汪軍教授在題為《A Society of AI Agents》的演講中，從多智體群體的特徵切入，介紹了多智體的強化學習特性。

具體表現為：在同一環境下，不同的智體既可以單獨處理各自的任務，又可以聯合在一起處理優化一個主要的目標方程，而且會根據具體的情況會有不同的變化。此外，汪軍教授還以多個例子闡述了強化學習與環境的關係。

演講全文：UCL電腦系教授汪軍：如何進行大規模多智體強化學習？| CCF-GAIR 2017

汪軍教授告訴雷鋒網 AI 科技評論，實際上他此前準備的是《Artificial Collective Intelligence》的演講主題，但近期因為在多智慧體領域有了一些新的研究和嘗試，

因此他在 CCF-GAIR 大會的演講中所引用的兩篇論文也是第一次在公開場合露面。其實他在演講中想講的東西還有很多，因此在演講之後，雷鋒網 AI 科技評論與汪軍進行了一次對話，雷鋒網整理如下：

目前學界少有人在多智慧體上進行深度學習方法的研究，這是因為大家目前還只關注單個智慧體的作用，還是說這個議題本身就非常難？

其實多智慧體是一個研究領域，也有自成一體的會議，研究的人也很多。但目前將多智慧體結合強化學習，特別是深度強化學習，目前還是比較新的一個話題。

首先，研究者要解決只有一個智慧體的問題，比如說象棋、圍棋，等這個問題解決之後，可能就會接著用深度學習去處理更多的智慧體。你可以看到，這有一個自然的脈絡在其中。所以今年就特別明顯，有很多多智慧體的問題採用了深度學習的方法去解決，

包括 UC 伯克利的一個研究室，做了一個理解語言的研究。在一個給定的場景下，研究者讓多智慧體們自己去通訊、去交流，但不告訴彼此交流的內容，最終發現慢慢地，語言就有可能在其中產生。因此這個也非常有意思。

我們團隊可能是從另一個角度出發，想像這些場景在生物學上有沒有什麼規律，比如有可能會出現 Leader，

那麼我們可以在這個過程中理解領袖是如何產生的，是不是有些智慧體自己就會成為領袖。我們現在所理解的內容就是所謂的「grouping」，也就是在給定一些特定條件下，可能就會認為這些多智慧體可以成為一個團隊，這與人類最早最原始的狀態其實是一樣的。最早的時候人需要捕獵，出於安全的考慮可能會組成一個團隊。所以我們通過深度學習的方式，可以學習到以前完全學習不到的東西，甚至對人類學可以瞭解。

更進一步地，我們是不是可以學習宗教是如何產生的？宗教到底是什麼，因為每個人都可能是自私的，或者每個人都有自己的利益，如果有一個宗教把這些人約束起來，可能這個集團的利益可能會最大化。當然，我現在所說的只是一個假設，現在還沒有人去研究這個，我們所做的研究也只是第一步。

您在演講中也提到，目前很少有人研究超過 20 個智慧體的協作，但您也提到了比如說像滴滴的調度問題，還有共用單車的問題。實際上 MSRA 的城市計算，或是滴滴研究院的調度系統都有類似的交通系統研究，但它是屬於一個系統調動所有的個體，那麼將行為個體作為智慧體的意義在什麼地方？

在多智慧體的情況下，你有兩種設置情況，一種情況是讓每個人之間只優化自己的利益，利益之間雖然可能會有些聯繫，但是每次做決定的時候，雙方不需要知道對方所做的決定。

還有一種是協作關係，在做決定之前需要相互獲取一些資訊，最後聯合起來做一個決定。這兩個情況是不一樣的，如果你把它放到一個最特殊的情況，就像你剛才講的，我有一個大系統，我把所有的多智慧體全部一起優化，這時候呢這個多智慧體其實就轉化成了單智慧體，你可以把它當作一個智慧體，只不過它的這個輸出太多了，每個都要輸出一個結果。但這個計算量太大，可能有一百萬個，如果每個都要去權衡決策的話，這是不現實的。所以一般來說會選擇一種完全獨立的，或者中間有雙向通訊的方式。

那這樣是不是也涉及到一個博弈問題？

對，博弈有兩種，一個是啊就是我們所謂的零和博弈，就像下棋一樣，你贏了我就輸了，它是一個互相博弈的情況。那麼還有一些協作的關係，比如我們倆的目標是一樣的，那麼會涉及到雙方的貢獻程度。

那麼您在演講中所說的生態系統的例子，其實是希望找到背後的一些生態學規律？這些理論性的內容能夠如何被應用呢？

其實有兩個層面。第一個是，我們想從科學上面理解它背後的規律，要滿足我們的好奇心。比如說人工智慧體在做出一個群體以後，是不是跟大自然的表現情況是一樣的，如果不一樣，有什麼差別？如果一樣，為什麼？我們完全不會考慮它可能會有什麼（應）用，主要還是滿足我們的好奇心。

我們當時做環境動態變化研究的出發點在於，在玩遊戲的時候，比如說玩王者榮耀，如果你玩遊戲的水準比較弱，如果對手設計得太強了，你玩一下就覺得沒意思了；如果你的水準很強，但這個遊戲對手的難度又很弱，你玩著也沒有意思。因此遊戲難度的設計，本身也就是優化這個遊戲本身的一個過程。

但遊戲還是在一個虛擬環境下設計的，那麼在實際情況和實際應用裡，如何進行各種指標的量化？

主要有兩點，一個是在有些情況下你可以自己設定，那麼進行試錯就可以了。如果是理論性更加的話，還有一種叫「Inverse Reinforce Learning」的方法，就是說反過來玩，我們有一些最優化的策略作為訓練集，然後把它放回強化學習系統裡去學習 reward ，然後用獲得的 reward 再去解決新問題。

其實我看您的近期研究內容與 GAN 的聯繫非常緊密，包括 SeqGAN、IRGAN 等。你覺得目前 GAN 是一個比較有效的方法嗎？還是說，與 GAN 的結合會是未來的一個趨勢？

我們的 SeqGAN 出來之後，現在是目前唯一一個可以用在離散資料上的有效方法，所以今年你會看到有很多論文用 SeqGAN 去解決文本問題，所以我們那個文章的引用就變得非常高。

有研究者採用的是另外一個方法，那個方法理論很好，但是實際資料的表現還不是太好。所以我們現在也在嘗試，是不是要在一些標準的資料集上再好好地把效果提上去。

那如果引申到您非常擅長的推薦系統與計算化廣告領域，您覺得應該如何用深度學習結合起來？

比如像 GAN 的話，我覺得現在就火得有點過了，它在解決某些問題可能還是夠嗆。（比如說呢？）比如說像離散資料就比較難解決，我們也只是提出了一個方法，具體效果好壞大家也都還在嘗試。此外，在優化的時候不一定效果很好，可能要試很多次，不像現在的 Deep Learning。

以 IRGAN 為例，這是您與學術界進行合作的一個成果；而像 BiCNet 這樣的多智慧體協作系統則是與工業界合作聯繫的，那麼在這兩個研究中，您感受到最大的不同之處在哪裡？

公司具有很強的工程性，而且有資料，比如說有些論文如果是與工業界合作，你可以進行線上測試，包括系統上的 A/B Testing，但在學校不可能讓幾個博士生去做這個事情。博士生必須在這幾年內找到一個題目，直接去做科學的研究。

除了與雙界合作外，我瞭解到您也在北京創辦了一個公司，做個性化推薦的業務，那麼為何不選擇直接創業，學術界對您的吸引力可能在什麼地方？

不論是在學校還是在產業界，大家的出發點都是想解決一些技術問題。我的興趣還是一直在學校，創立公司的目的也是希望通過這樣的方式實現技術轉化。像計算化廣告或是推薦系統，如果沒有一個公司作為載體，可能我就不能拿到使用者的資料，也不能做線上測試。

我覺得高校對我的吸引力在於解決一些最基礎的問題，在企業界可能不太容易能實現這個狀態，公司也有產品化的需求。

那麼像阿裡與高校合作研究星際爭霸，實際上是一個比較特殊的情況？因為它並不是直接以產品化為導向的？

是的，阿裡做這個事情的確是一個比較特例的情況，而像 DeepMind 這樣的情況就更少了。DeepMind 給自己的定位是純研究機構，但實現的卻是商業化的運作。實際上我認為，母公司提供資金，讓基礎研究機構以商業化模式去管理，做一些比較前沿的研究，它的回報率會更高。我一直想強調的一點是，為什麼中國不能出現像 DeepMind、Magic Pony 這樣的公司？

如果是 VC 比較急功近利，那可能就做不了，第一年投錢，第二年就想把產品做出來，這對基礎研究來說是不現實的。但如果把研究放回高校，高校的機制又存在著不足，也就是「一個蘿蔔一個坑」。什麼意思呢？一個博士生，他要在四年裡獨立地完成一個項目。當然我們有些機制可以讓學生們一起合作，但還是非常零散的狀態。不可能在高校裡找 10 個最牛的學生去把星際這個問題徹底搞定，只有在工業界中雇 10 個最牛的人去做這個事情，這其中有工程師、有程式師、有系統維護，這樣才能產生一個 AlphaGo。

現在國內很多企業也在建研究院，是不是也在想向這種方向靠攏？

對，但他們的研究院都是非常功利性的，都是研究院，但是都不研究。我覺得要解決這個問題可能有兩種管道，一個是大公司突然就覺悟了，要做一個全新的商業化運作的純研究機構；另一個是創業公司自己帶頭做基礎研究，如果把 AlphaGo 這樣的研究做成了，我相信對 VC 的價值也很高。比如星際爭霸這個事情，或者說王者榮耀，如果能做到能與一般水準或者水準稍微好點的玩家對抗，那它的價值就非常大了。

甚至對人類學可以瞭解。