華文網

谷歌PhD獎研金獲得者徐海峰:“幸運”的演算法博弈論之路

雷鋒網 AI 科技評論按:2017 年的谷歌博士生獎研金( Google PhD Fellowship)北美、歐洲、中東地區日前評選名單出爐,這個從 2009 年成立的專案旨在表彰在電腦科學領域表現優異的博士生。日前,雷鋒網 AI 科技評論與七名獲此殊榮的華人學生之一、南加利福尼亞大學博士生徐海峰進行了交流。

徐海峰,2012 年畢業于中國科學技術大學少年班學院(華羅庚班),在加拿大滑鐵盧大學進行計算數學的研究 後,於 2013 年赴美國南加利福尼亞大學攻讀博士學位,師從 Shaddin Dughmi 和 Milind Tambe,主要研究領域為演算法博弈論、資訊經濟及演算法設計與分析。

當得知自己獲得谷歌博士生獎研金之後,徐海峰在朋友圈分享了這一好消息:「Made my day[大哭]」。

徐海峰獲得谷歌博士生獎研金所屬的類別為「演算法、優化及市場」,同時獲得這一類別獎學金的另外兩位獲獎者分別來自 UC 伯克利大學及哈佛大學。

在獲此殊榮的背後,是嚴格的評審過程與激烈的競爭流程。獎研金需要博士生導師向學校推薦,而每個學校只能在其中選出兩名博士生,並代表候選人向谷歌提交申請,材料包括候選人的博士論文提案、簡歷和三封推薦信。徐海峰收到的郵件中顯示,谷歌成立了一個由研究科學家組成的專家評審團進行評估。

2017 年的谷歌博士生獎研金在北美、歐洲、中東地區評選出 33 位優秀的博士生,

而作為七位華人獲獎學生之一的徐海峰,雖然調侃著「總算可以給老闆省點錢」,但他也覺得自己非常幸運。「特別感謝所有幫助過我的人,尤其是我的導師。」

而徐海峰為何會與演算法博弈論結緣,就要追溯到他的本科經歷了。在中國科學技術大學少年班學院(華羅庚班)就讀數學方向的徐海峰,於大四期間在微軟亞洲研究院劉鐵岩博士的研究小組裡實習。

在高斌老師的指導下,他第一次接觸到演算法博弈論,並且被它深深吸引。「那時的我覺得這是一個完美地結合了數學,電腦和經濟學,同時具備理論和實際應用價值的領域,正是我想做的東西。」

在積累了一年計算數學的基礎後,徐海峰得以在心儀的領域攻讀博士。在回顧這段歷程時,他也對劉鐵岩老師與高斌老師,以及所有研究人員表達了感激之情。

徐海峰的博士課題是從計算角度研究資訊的戰略作用,是演算法博弈論近年剛興起的一個熱門研究方向。目前,徐海峰除了專注於此類問題的理論基礎研究,也在導師 Milind Tambe 領導的 Teamcore 小組進行偏應用型的科研工作,此前接受雷鋒網採訪的南洋理工大學的安波博士也同為這一小組的成員。從官網可以瞭解到,這一小組的科研主題是用人工智慧做有益於社會的事情(AI for Social Good)。徐海峰向雷鋒網介紹道,團隊成員雖然背景不盡相同,涵蓋數學、物理、經濟學、軟體工程等專業,但他認為不同學科思維模式的交流能夠説明各自的研究。「組裡已經實現的應用包括優化美國聯邦空警的戰略部署,優化美國海軍警衛隊的巡邏路線以及設計馬來西亞自然保護區護林人員的巡邏路線等等。」

近年來,對資訊在博弈中的戰略作用的研究獲得了很多著名經濟學家和電腦科學家的關注,比如 2014 年獲得卡拉克獎章的斯坦福大學經濟學教授 Matthew Gentzkow 近年來發表了數篇相關論文(雷鋒網按:每兩年頒發一次的卡拉克獎授予 40 歲以下為經濟思想和理論做出最重要貢獻的美國經濟學家,大部分得主獲得該獎之後都獲得了諾貝爾經濟學獎,因此也有著「小諾貝爾經濟學獎」的美譽)。而對於互聯網巨頭而言,資訊的戰略意義也是一個值得關注的問題。

像 Facebook、穀歌這樣的大公司,雖然在大資料時代的驅動下擁有很多資訊,但如何戰略性地利用這些資訊實現收益最大化,就涉及到公司與同行之間以及與客戶(例如廣告商)之間的博弈。「很多時候最優的資訊策略需要計算出來,所以需要人們從計算角度研究資訊的戰略作用。舉個例子,穀歌對每一個互聯網用戶的描述有上千個特徵,向廣告商提供其中的哪些特徵能使收益最大化?這裡可供選擇的特徵組合超過 21000 種,比人體的細胞 還要多很多,要從如此多的選擇中選出最優的那一個,只能求助於優化演算法。」徐海峰告訴雷鋒網,他去年在穀歌實習之時,主要研究的課題就是穀歌與廣告商之間的博弈。

但在設計演算法的時候,徐海峰提及存在兩個主要的難點。

首先是系統的分析難度大。在資訊不對稱的情況下,連博弈參與者的行為都難以分析,更不要說計算基於其行為的最優資訊策略了。

其次是不對稱資訊對博弈結果存在影響。不同博弈參與者本身各自擁有不同的資訊,資訊策略設計者還需要考慮參與者自身擁有的資訊對博弈的影響。

博弈論的演算法設計與研究都是基於完全理性參與者的假設,但實際上很少有完全理性的個體。這樣一來,演算法博弈論是否會淪為「空中樓閣」的紙上談兵呢?徐海峰表示,這一問題確實存在,模型有時候不能完全描述實際情況。而為了彌補這一鴻溝,可以有兩種解決方式,「一是對人的理性程度進行建模。另一種辦法是做魯棒優化,使結果適合不同理性程度的參與者。」

實際上,博弈論的決策權衡與機器學習最終面臨現實問題的情況非常類似,就像前面所說的,博弈參與者要實現「絕對理性」的可能性極小,加上複雜多變的現實狀況,可能很難直接用公式來描述。那麼這樣一來,一個順理成章的做法就是用機器學習模型來刻畫博弈參與者的行為,「這樣不同的參與者就可以被看成是不同的機器學習模型,博弈變成了機器學習模型之間的博弈。如果可以對談判人的衡量標準進行量化,那麼用機器人代替人談判是完全有可能的,在未來或許也能誕生自動商業談判、自動公司決策等很多新的行業。」

反過來,博弈論也影響了機器學習模型的設計,比如生成式模型(GANs)就是基於零和博弈而產生的。生成器模型希望通過製造以假亂真的內容來「騙」過判別器,而判別器也需要不斷提升自己的判斷能力,以甄別偽造圖像和真實圖像。

徐海峰透露,目前微軟亞洲研究院劉鐵岩博士的小組有做關於博弈論和機器學習的結合研究,採用機器學習來學習廣告商的行為,然後基於學出來的模型進行最優機制設計。而 Teamcore 組裡也有相關的研究工作,主要工作是在安全博弈中用機器學習模型來描述對手的策略,然後採用博弈論來進行決策。

在演算法博弈論逐步成為一個新興研究領域的同時,在企業與高校分別都做過研究的徐海峰對機器學習的熱潮也頗有感觸。「在企業做研究的一個優勢是能直接看到有實際應用價值的問題,而在學校常常需要自己去想出一個有價值的課題。學校的一個優勢在於可以做一些週期更長的研究,而企業出於多方面的考慮(比如時間,經濟成本)往往需要即時可行的方案。」

而作為仍在學界做研究的學生,徐海峰覺得學術圈與時尚圈很相似,「有很多人趕時髦,也有很多人堅持自己的風格,」他平時也會關注學界的熱點課題,認為這樣對自己的研究也會有啟發。但不論如何,「我覺得做自己喜歡的有價值的課題就好。」

正是抱著解決問題的心態去做研究,徐海峰的論文在去年獲得了 AAMAS 的最佳學生作品獎;而他關於安全博弈的演算法設計論文也入選了 EC 2016,並在 SecMas Workshop 獲得最佳論文。

但當談起獲獎的心得與經驗時,徐海峰非常謙虛地表示,這是一件「仁者見仁智者見智」的事,「我覺得最佳論文是可遇而不可求的,很難說有一個標準。」他也提及導師對他的教誨,「導師告訴我要試著去解決最基本的問題,對問題提供最自然最完整的解決方案,至於結果,只能留給別人評判了。」

徐海峰向雷鋒網介紹道,團隊成員雖然背景不盡相同,涵蓋數學、物理、經濟學、軟體工程等專業,但他認為不同學科思維模式的交流能夠説明各自的研究。「組裡已經實現的應用包括優化美國聯邦空警的戰略部署,優化美國海軍警衛隊的巡邏路線以及設計馬來西亞自然保護區護林人員的巡邏路線等等。」

近年來,對資訊在博弈中的戰略作用的研究獲得了很多著名經濟學家和電腦科學家的關注,比如 2014 年獲得卡拉克獎章的斯坦福大學經濟學教授 Matthew Gentzkow 近年來發表了數篇相關論文(雷鋒網按:每兩年頒發一次的卡拉克獎授予 40 歲以下為經濟思想和理論做出最重要貢獻的美國經濟學家,大部分得主獲得該獎之後都獲得了諾貝爾經濟學獎,因此也有著「小諾貝爾經濟學獎」的美譽)。而對於互聯網巨頭而言,資訊的戰略意義也是一個值得關注的問題。

像 Facebook、穀歌這樣的大公司,雖然在大資料時代的驅動下擁有很多資訊,但如何戰略性地利用這些資訊實現收益最大化,就涉及到公司與同行之間以及與客戶(例如廣告商)之間的博弈。「很多時候最優的資訊策略需要計算出來,所以需要人們從計算角度研究資訊的戰略作用。舉個例子,穀歌對每一個互聯網用戶的描述有上千個特徵,向廣告商提供其中的哪些特徵能使收益最大化?這裡可供選擇的特徵組合超過 21000 種,比人體的細胞 還要多很多,要從如此多的選擇中選出最優的那一個,只能求助於優化演算法。」徐海峰告訴雷鋒網,他去年在穀歌實習之時,主要研究的課題就是穀歌與廣告商之間的博弈。

但在設計演算法的時候,徐海峰提及存在兩個主要的難點。

首先是系統的分析難度大。在資訊不對稱的情況下,連博弈參與者的行為都難以分析,更不要說計算基於其行為的最優資訊策略了。

其次是不對稱資訊對博弈結果存在影響。不同博弈參與者本身各自擁有不同的資訊,資訊策略設計者還需要考慮參與者自身擁有的資訊對博弈的影響。

博弈論的演算法設計與研究都是基於完全理性參與者的假設,但實際上很少有完全理性的個體。這樣一來,演算法博弈論是否會淪為「空中樓閣」的紙上談兵呢?徐海峰表示,這一問題確實存在,模型有時候不能完全描述實際情況。而為了彌補這一鴻溝,可以有兩種解決方式,「一是對人的理性程度進行建模。另一種辦法是做魯棒優化,使結果適合不同理性程度的參與者。」

實際上,博弈論的決策權衡與機器學習最終面臨現實問題的情況非常類似,就像前面所說的,博弈參與者要實現「絕對理性」的可能性極小,加上複雜多變的現實狀況,可能很難直接用公式來描述。那麼這樣一來,一個順理成章的做法就是用機器學習模型來刻畫博弈參與者的行為,「這樣不同的參與者就可以被看成是不同的機器學習模型,博弈變成了機器學習模型之間的博弈。如果可以對談判人的衡量標準進行量化,那麼用機器人代替人談判是完全有可能的,在未來或許也能誕生自動商業談判、自動公司決策等很多新的行業。」

反過來,博弈論也影響了機器學習模型的設計,比如生成式模型(GANs)就是基於零和博弈而產生的。生成器模型希望通過製造以假亂真的內容來「騙」過判別器,而判別器也需要不斷提升自己的判斷能力,以甄別偽造圖像和真實圖像。

徐海峰透露,目前微軟亞洲研究院劉鐵岩博士的小組有做關於博弈論和機器學習的結合研究,採用機器學習來學習廣告商的行為,然後基於學出來的模型進行最優機制設計。而 Teamcore 組裡也有相關的研究工作,主要工作是在安全博弈中用機器學習模型來描述對手的策略,然後採用博弈論來進行決策。

在演算法博弈論逐步成為一個新興研究領域的同時,在企業與高校分別都做過研究的徐海峰對機器學習的熱潮也頗有感觸。「在企業做研究的一個優勢是能直接看到有實際應用價值的問題,而在學校常常需要自己去想出一個有價值的課題。學校的一個優勢在於可以做一些週期更長的研究,而企業出於多方面的考慮(比如時間,經濟成本)往往需要即時可行的方案。」

而作為仍在學界做研究的學生,徐海峰覺得學術圈與時尚圈很相似,「有很多人趕時髦,也有很多人堅持自己的風格,」他平時也會關注學界的熱點課題,認為這樣對自己的研究也會有啟發。但不論如何,「我覺得做自己喜歡的有價值的課題就好。」

正是抱著解決問題的心態去做研究,徐海峰的論文在去年獲得了 AAMAS 的最佳學生作品獎;而他關於安全博弈的演算法設計論文也入選了 EC 2016,並在 SecMas Workshop 獲得最佳論文。

但當談起獲獎的心得與經驗時,徐海峰非常謙虛地表示,這是一件「仁者見仁智者見智」的事,「我覺得最佳論文是可遇而不可求的,很難說有一個標準。」他也提及導師對他的教誨,「導師告訴我要試著去解決最基本的問題,對問題提供最自然最完整的解決方案,至於結果,只能留給別人評判了。」