2017CCAI專訪丨當機器學習遇見“眾包”——訪微軟雷德蒙研究院首席研究員周登勇

【編者按】7 月 22 - 23 日，由中國人工智慧學會、阿裡巴巴集團 & 螞蟻金服主辦， CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會在 2006 年 6 月提出，眾包模式的出現極大的提升了企業工作效率而且大幅降低成本。

人工智慧時代即將來臨，作為實現人工智慧的重要方法，機器學習開始受到廣泛關注。訓練機器學習系統需要大量的帶標籤資料，實現諸如語音辨識及圖片分類等功能，比如將帶有花朵的圖片與“花朵”這個詞語捆綁起來。傳統基於專家的資料標記緩慢而昂貴，基於此，機器學習開始與眾包模式相融合，

後者成為了當今獲取標記資料的基本手段。

儘管聽起來非常簡單，但如何利用眾包打造機器學習的高品質資料庫遠不是一件簡單的事情。眾包背後涉及哪些技術？怎樣保證資料精准？帶著這些問題，我們採訪了美國微軟雷德蒙研究院首席研究員周登勇博士，就眾包與機器學習融合中的一些問題進行了請教。

周登勇（Dengyong Zhou），美國微軟雷德蒙研究院首席研究員。在加入微軟研究院之前，周登勇博士曾任職于德國馬普研究所智慧系統分所（Max Planck Institute for Intelligent Systems），以及 NEC 美國研究院普林斯頓分部的機器學習部。他在中國科學院自動化所獲得人工智慧專業博士學位，並同時獲得中國科學院院長獎學金。周登勇博士在微軟工作期間曾獲研究院金星獎，以及擔任 NIPS 與其他若干國際會議的領域主席。

以下為採訪實錄：

CSDN：首先請與我們的讀者分享一下您與團隊目前正在專注的研究領域，以及取得了怎樣的進展？

周登勇：在微軟雷德蒙研究院，我與我的團隊一直專注在如何提高眾包資料的品質這個基本問題上。

具體來說，我們主要集中在兩個方面：一是如何從非專家標記的資料中提煉出高品質的標記，二是如何激勵資料標記員工提供高品質的工作。針對這兩方面問題我們進行了演算法和理論基礎的研究，一些技術發明已經應用在產品中。

CSDN：我們知道，眾包是獲取大量的帶標籤資料，供機器學習系統進行訓練的一種方式，那麼是什麼促成了眾包模式的出現，採用眾包模式相比傳統的資料收集方式具有什麼優勢？

周登勇：在建立基於機器學習的智慧系統時，只要有大量的訓練資料，一個樸素的機器學習模型往往可以完勝一個只是基於很少量資料訓練出來的精心設計的高級模型。

當你需要短時間內提高一個機器學習應用的性能時，大幅度增加訓練資料應該是優先考慮的策略，而獲得大量標記資料可以通過眾包達到。

一個商業化的互聯網眾包平臺可能有上百萬分佈在世界各地的資料標記員。他們能以低廉的價格在幾天甚至幾小時之內就產生大量的標記資料。相比之下，傳統的基於專家的資料標記緩慢而又昂貴。

CSDN：通常認為，眾包的工作流程是任務準備、任務執行、任務答案整合。在此基礎上，微軟雷德蒙研究院有哪些創新？效果如何？

周登勇：微軟雷德蒙研究院的多個小組在眾包不同方面的問題上展開了深入而又持久的研究。我們的研究工作往往與產品部門緊密配合。隨著資料的類型以及資料收集流程的不同，

眾包的問題會很不一樣。我與我的團隊提出了一個叫極小極大熵原理的簡潔的統計推斷模型用於眾包任務答案整合。該原理可以適用於很多類型的資料，包括多類別的資料，分級資料，以及結構化的資料，也可以很容易融合先驗知識。在任務執行上，我們從博弈論出發提出了一種叫翻倍或者歸零的付錢機制，資料標記員可以選擇不回答他沒有把握的問題。採用這種付錢方式，我們觀察到資料標記的錯誤率大幅度降低。而且，理論上我們還證明了這也是經濟上最節省的付錢方式。

CSDN：在眾包中，任務花費、品質和時間是重要的三個指標，但往往無法兼得。該如何平衡這三者的關係？

周登勇：這三個問題的平衡與具體的眾包任務密切相關。一般來說，品質是更重要的指標，如果沒有品質，再低的花費與再少的時間都是沒有意義的。我與我的團隊考慮過任務花費與品質的平衡。我們的目標是在一個給定的預算下獲得最高品質的資料。大致說來，我們考慮一種線上的眾包模式。在每一步，我們需要做出兩個決定：一是哪個資料需要標記，二是讓誰來標記。我們為這個問題設計了一個基於瑪律科夫決策理論的數學模型，並提出了一個稱之為知識梯度的有效演算法。

CSDN：通過眾包會獲取大量的資料，這些資料在應用於機器學習系統之前，可以通過哪些技術和操作，改善資料的品質？存在哪些誤區？

周登勇：這些資料在應用於機器學習系統之前，我們要做資料整合，前面提到的極小極大熵原理的統計推斷模型就是服務於此。有些人或許喜歡考慮將資料整合與機器學習的訓練演算法捆綁到一個單一的模型中，技術上很容易做到，但這個或許不是好的主意。我傾向把資料整合與模型訓練分開，這有兩方面原因，迄今為止，我還沒有觀察到這種捆綁模型有哪些有意義的性能提升。更重要的是，在實際應用中，當機器學習系統出了問題，我們通常需要精確知道到底是哪個環節出了問題。捆綁模型模糊了整合與訓練這兩個環節的界限。

CSDN：眾包中的統計推斷背後涉及哪些關鍵技術？哪些對品質的影響最大？

周登勇：眾包中的統計推斷技術已經比較成熟，特別是針對多類別的資料。我們的極小極大熵原理的統計推斷模型能用到很多不同的資料類型上，對不同的資料類型當然需要做一些適當的調整。但是，眾包遠不只是一個靜態的資料處理問題，為改善眾包資料品質，我們還需要考慮其他的環節。比如說，在眾包工人執行標記任務之前，執行資格考試，只有達到了一定的正確率，才有資格標記資料。否則，需要一定的職能訓練直到達標。這樣的一個環節通常會帶來顯著的資料品質改善。另外，我前面提到，付錢方式也會對資料品質產生很大的影響，有效的付錢方式會讓眾包工人願意付出足夠的努力把工作完成好。

CSDN：目前眾包平臺的激勵機制有哪些缺陷，AI 新技術能帶來哪些不同？未來的困難會在何處（例如是否有可能作弊）？請舉例說明。這些研究，除了“眾包”還有可能應用在哪些領域？

周登勇：目前眾包平臺的激勵機制一般都是一些經驗方法。比如說，隨機抽查一些結果，如果回答品質過得去的話，就付全款；否則，就不給錢。我們是把激勵機制奠定在堅實的數學基礎之上，並發展了實際上簡單而又有效的付費機制。目前，這方面還有諸多問題需要更仔細的考慮。比如說，抽查結果的工作量可能太大，我們需要設法減少對抽查的依賴，而一旦減少抽查會讓作弊更容易。還有，一些比較困難的標記問題，比如說自然語言處理的標注，需要提供有吸引力的市場價格吸引足夠多的眾包工人去標注。這些問題目前還只是有一些粗淺的經驗方法，還有很長的路要走。對眾包中激勵機制的研究工作可以不只是用在眾包中，可以放在更大的範圍之內考慮，特別是在人機結合的智慧系統中我們也需要考慮如何合理激勵每位參與人員。

CSDN：擁有怎樣特徵的公司應該構建自己或者使用協力廠商眾包平臺，應該考量哪些要素？可否簡單舉例說明？

周登勇：大資料驅動佔據核心位置的公司都需要考慮使用眾包平臺。如果資料的私密性很重要，需要構建自己的眾包平臺。否則，可以直接使用協力廠商平臺。平臺的易用性是一個重要考慮因素。不管是眾包工人還是標記任務提供者都會喜歡容易使用的平臺。平臺的靈活性也很重要，特別是任務分發以及付錢機制上需要有足夠的靈活性。還有，平臺需要提供一些基本的品質控制功能包括檢測作弊。

CSDN：您將在今年的 CCAI 大會上發表《眾包中的統計推斷與激勵機制》主題演講，希望此次演講能夠為聽眾帶來怎樣的啟發，以幫助他們解決當前在人工智慧領域哪些共性問題？

周登勇：通過做這個眾包工作的報告，我希望大家看到人機結合的智慧系統的潛力。在可以預見的將來，機器智慧完全代替人的智慧幾乎沒有任何可能。我們應該是讓人與機器各施所長互相補充。資料標記是一個比較簡單的人機系統，但是這裡面包含的技術已經相當有挑戰性。如果我們要建立更複雜的人機智能系統解決更大的問題，會有更多的新的困難需要克服。另外，我們也通過報告展示出如何在一個看起來實際得不能再實際的問題上發展出堅實優雅的數學理論並產生有效的實用技術。這是基礎研究的魅力，這需要足夠的時間，耐心與環境支持。在我們的工作之前，眾包領域的工作基本是處於非常初級的經驗主導的階段。

CSDN：在此次 CCAI 大會上，您對哪些內容比較感興趣？

周登勇：我非常高興參加這次中國人工智慧大會。人工智慧正在國內呈現爆炸性的發展，從各種互聯網公司到學術研究。我對這次人工智慧大會的所有的內容都很有興趣。特別是，我許多朋友都來參加這次大會，他們在人工智慧領域做了傑出的工作，我非常高興我們能聚在杭州這個美麗的城市一起談論人工智慧領域的最新進展。

關於 CCAI

中國人工智慧大會（CCAI），由中國人工智慧學會發起，目前已成功舉辦兩屆，是中國國內級別最高、規模最大的人工智慧大會。秉承前兩屆大會宗旨，由中國人工智慧學會、阿裡巴巴集團 & 螞蟻金服主辦，CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會（CCAI 2017）將於 7 月 22-23 日在杭州召開。

作為中國國內高規格、規模空前的人工智慧大會，本次大會由中國科學院院士、中國人工智慧學會副理事長譚鐵牛，阿裡巴巴技術委員會主席王堅，香港科技大學電腦系主任、AAAI Fellow 楊強，螞蟻金服副總裁、首席資料科學家漆遠，南京大學教授、AAAI Fellow 周志華共同甄選出在人工智慧領域本年度海內外最值得關注的學術與研發進展，彙聚了超過 40 位頂級人工智慧專家，帶來 9 場權威主題報告，以及“語言智慧與應用論壇”、“智慧金融論壇”、“人工智慧科學與藝術論壇”、“人工智慧青年論壇”4 大專題論壇，屆時將有超過 2000 位人工智慧專業人士參與。

CSDN：通過眾包會獲取大量的資料，這些資料在應用於機器學習系統之前，可以通過哪些技術和操作，改善資料的品質？存在哪些誤區？

CSDN：眾包中的統計推斷背後涉及哪些關鍵技術？哪些對品質的影響最大？

CSDN：擁有怎樣特徵的公司應該構建自己或者使用協力廠商眾包平臺，應該考量哪些要素？可否簡單舉例說明？

CSDN：在此次 CCAI 大會上，您對哪些內容比較感興趣？

關於 CCAI