中科院自動化所王亮：由AI Challenger漫談資料集的重要性

時間＼2017-09-20

李根發自凹非寺

量子位元報導 | 公眾號 QbitAI

AI火熱，但並不是所有人都清楚“資料集”的意義。

首屆“AI Challenger·全球AI挑戰賽”在9月4日正式開始後，既收穫了參賽選手的第一手回饋，也引來不少吃瓜群眾圍觀。

參賽選手評價，“人體骨骼關鍵點”、“圖像中文描述”和“英中機器翻譯”3大資料集令人意外又驚喜，他們沒想到首屆比賽，主辦方就在資料集上花費了大心思，品質大大超出預期。

然而對於好奇者來說，他們尚未清楚資料集背後的意義，也不知道一個經典資料集的評價標準，需要從哪些維度展開。

於是本著科普的初衷，我們邀請到本次AI Challenger全球AI挑戰賽的評委、中科院自動化所模式識別國家重點實驗室副主任王亮博士，

解答最常見的一些資料集相關的問題，王亮博士也向我們解釋了圖像領域經典資料集之所以經典的原因。

為方便閱讀，我們以第一人稱的敘述方式，將王亮博士的問答進行了不改變原意的改寫。

△ 王亮博士

大家好。

我是中科院自動化所模式識別國家重點實驗室的研究員王亮，主要的研究領域是模式識別，具體的研究方向是視覺模式分析，主要對圖像、視頻等視覺資料進行處理。

在影像處理方面，主要集中於目標檢測、識別、分割與檢索等。在視頻處理方面則更多關注智慧視頻分析，比如視頻中個體檢測、跟蹤、身份識別、行為識別、事件分析等。

這或許是我受邀成為AI Challenger全球AI挑戰賽評委的核心原因，

希望我在圖像識別相關評選中給於指導、發揮作用。

而從我的角度來講，確實也想為國內人工智慧的推動做些事情。

現在的國內人工智慧正處於如火如荼的發展爆發期，從上到下都很重視，比如今年7月份國家還發佈了《新一代人工智慧發展規劃》，所以舉辦這個AI挑戰大賽是一個正當其時且非常有意義的事情。

其次，這次比賽與電腦視覺研究密切相關。

我本人一直在從事電腦視覺領域研究、組織與推廣工作，比如我是中國電腦學會-電腦視覺專委會(CCF-CV)的秘書長，也是中國圖像圖形學學會視覺大資料專委會主任，因此有責任、有義務、也非常願意為推動國內視覺領域的發展做一些力所能及的事情。

不過，辦這樣的大賽並不簡單，最具挑戰的當屬“資料集”。

資料集價值

很多人可能已經知道當前人工智慧發展的三大要素：資料、計算力和演算法，

知道資料集、計算力和演算法是相輔相成、相互提升的，三者缺一不可，但可能不太清楚資料集具體發揮的作用。

直白來說，資料是基礎，任何研究都離不開資料，巧婦難為無米炊。除了資料之外，計算能力也非常關鍵。深度學習演算法之所以可以興起，一方面是大規模資料的出現，另一方面得益於高性能計算，可以讓龐大的模型能夠被很好的擬合。

舉個例子，ImageNet之前有Pascal VOC競賽，剛開始只有20個目標類別，後來ImageNet擴充到1000類目標，資料量也達到百萬級。資料規模大了，傳統演算法準確度就大幅下降。但是大規模的資料集有助於研究者開發更高級的模型來不斷提升演算法的精度。比如2012年Hinton將CNN模型結合GPU加速應用到ImageNet資料上，其準確率相對於當時最好的傳統演算法提升了11%，進而到最近年的95%以上。

這種演算法結果準確性的提升，正是資料集帶來的。

在學界，資料集的意義更加直接：沒有資料集，就無法展開相應的研究工作。

所以在確定研究課題後，最為首要的任務就是獲得相應的資料集，通常有這樣幾種方案：

1）確定特定研究方向後，在網路上查找是否有公開、共用的資料集；

2）如果該研究方向當前沒有公開資料集或者公開資料集不適合自己的具體研究問題，那就可能需要親自去創建新的資料集。比如我博士期間做步態識別研究方向，當時國際上為數不多的公開資料集規模都很小（10人左右）、且行走視頻基本都是側面室內拍攝的，所以當時我們建了一個規模達到20個人、包括3種不同視角的戶外場景資料集；

3）參加公開的技術比賽（比如AI挑戰賽），這樣的比賽通常會提供合適的資料集；

4）與企業進行合作，企業方一般可提供所獲取的與實際應用更相關的資料集。

事實上，不同研究方向基本上都有與之相對應的資料集，比如，不僅有文字處理和圖像分類任務相關的資料集，也有用於行為識別和目標檢測的資料集等。

於是也就產生了不少經典資料集。

經典資料集及評價標準

比如ImageNet，它是專門用於圖像分類和目標檢測的大規模資料集，基於此資料集的LSVRC競賽開展了8年，產生了廣泛的影響。

除了ImageNet，還有MS COCO資料集，它包含更多的標注資訊，除了圖像分類和目標檢測外，它還可以用來做圖像檢索、語義分割、圖像描述等多種任務。

今年隨著ImageNet比賽的終結，李飛飛教授又提出了VisualGenome資料集，它的規模更大、標注資訊更多，並向一些新的任務上進行了拓展，包括視覺關係檢測等。由此可見，資料集也是在研究需求的推動下不斷向前完善和發展的。

對於ImageNet和MS COCO，也有不少人做出過對比評價，我也可以簡單談談我的觀點：

毫無疑問，ImageNet資料集的出現極大推動了目標識別、檢測方面的研究進展。但在MS COCO資料集上，不僅可以做識別和檢測，還可以做一些語義分割和圖像描述等相關的研究任務。

這幾年CV領域發展很快，之前大部分研究精力在做“感知”，現在開始更多地嘗試“理解”。我們小組目前研究較多的多模態學習、跨模態檢索，包括最近比較火的“看圖說話”任務（圖像描述），都是可以基於MS COCO資料集去研究。可以說，資料集的類型很大程度上還是與研究目的息息相關的。

當然也會有同學問，什麼樣的資料集才能稱得上經典資料集？背後的評價維度有哪些？我認為有三條標準。

第一，規模要大，大規模資料集上實驗出來的結果，更有說服力，比如規模至少要在100萬級以上；

第二，多樣性豐富一些，比如對於人臉識別任務，要求光照、表情、視角等變化因數具有多樣性；

第三，更接近實用需求，而不是完全實驗室場景下採集的資料集。

可能前兩點原因比較好理解，但資料集採集為什麼還要分實用需求和實驗室場景呢？

一般來說，如果資料集分佈越接近真實應用場景，就越有可能對研究工作有更正向的推動作用。

比如最早期的個體行為識別資料集，通常是簡單場景下安排一些人員模擬表演各種動作，這樣採集的行為視頻自然跟現實生活中的行為不太一樣，這樣的約束實驗場景下的資料集不可能真正用於演算法的實際性能評估。

因此從實際應用中獲取資料集對於演算法開發和評估會更有意義，比如說從企業獲得資料。

但從企業獲得資料並不容易，企業主動開放共用的案例更是少之又少。

因為這些企業資料中，可能涉及到資料版權、商業保密、用戶隱私等幾個重要因素。另外，重要的政府機構相關資料也很難獲取，比如跟公安相關機構合作，一般也很難獲取到這些部門所擁有的大量的實際監控資料，這可能也是出於國家安全、隱私保護等方面的原因。

所以此次AI Challenger全球AI挑戰賽之所以會在資料集方面受到關注，我覺得跟企業資料共用密不可分。

當然，回到我們評價資料集的三個標準，其他兩項也符合“經典資料集”的要素。資料規模上超過100萬量級已成現實。多樣性方面也有潛力。

比如目前這次AI挑戰賽，在圖像描述、骨骼關鍵點等任務上提供的實際場景資料集規模上也許是國際上比較大的。如果接下來能不斷補充資料，在規模上、多樣性上進一步完善，做成系列性的比賽，就有可能成為經典的資料集。

所以我也衷心希望能有更多優秀選手參賽，通過此次精心打造的資料集打磨出好演算法。

參賽建議

作為大賽評委，我覺得首先自然關注的就是方法的性能優劣，比如以準確率為指標；當然對於視覺演算法而言，通常也比較關注即時性、魯棒性等，因此也可以考慮方法的綜合性能。

不過，在性能相近情況下，評委可以關注所使用方法的創新性。獨創性的模型和方法會更值得關注和鼓勵。

最後，對於參賽學生，我也有三點建議：

1）現在深度學習是推動AI進步的重要技術之一，可能這次比賽很多選手會選擇使用深度學習技術。如果有學生還不太瞭解深度學習方面的技術，建議他們學習相關課程（視頻），比如斯坦福的深度學習公開課程等。

2）針對這次比賽的任務-關鍵點檢測，推薦大家去看下CMU的openpose工作，這個工作做得很好，在CVPR2017上的實際演示效果也很不錯。

3）針對這次比賽的任務-圖像描述，現有的圖像描述工作使用的更多是英文描述，而這次大賽加入了中文描述，更符合中文語言的使用習慣。該資料內容更加豐富，包括形容詞、成語等，相應的挑戰也會更大一些。為了瞭解圖像描述工作，建議去瞭解一下穀歌最近期的研究工作。

祝每一位參賽選手都能收穫滿意的成績，也祝願更多對AI感興趣的同學在“AI Challenger·全球AI挑戰賽”中提升自己。

專家簡介

王亮，研究員，博士生導師，電子電氣工程師學會（IEEE）高級會員，國際模式識別學會（IAPR）會士，國家傑出青年科學基金獲得者，國家青年科技獎獲得者。1997 年和2000 年分別獲得安徽大學工學學士和碩士學位，2004年獲中國科學院自動化研究所工學博士學位。2004 - 2010 年分別在英國帝國理工大學，澳大利亞莫納什大學，澳大利亞墨爾本大學及英國巴斯大學工作，歷任助理研究員，研究員和講師。2010 年入選中國科學院“百人計畫”，現為中科院自動化所模式識別國家重點實驗室副主任，研究員。

— 完 —

誠摯招聘