您的位置:首頁>科技>正文

中科視拓CTO山世光:如何用X資料驅動AI成長? | CCF-GAIR 2017

雷鋒網AI科技評論按:7月7日, 全球人工智慧和機器人峰會(CCF-GAIR 2017)在深圳如期舉辦, 由CCF中國電腦學會主辦、雷鋒網與香港中文大學(深圳)承辦的這次大會共聚集了來自全球30多位AI領域科學家、近300家AI明星企業。 雷鋒網最近將會陸續放出峰會上的精華內容, 回饋給長期以來支援雷鋒網的讀者們!

本次帶來中科視拓CTO, 中科院計算所研究員山世光博士在GAIR 2017大會上的分享精華。

山世光, 中科院計算所研究員、博導, 基金委優青, CCF青年科學獎獲得者, 現任中科院智慧資訊處理重點實驗室常務副主任, 中科視拓創始人、董事長兼CTO。 他的研究領域為電腦視覺和機器學習。 已在國內外刊物和學術會議上發表論文200餘篇, 其中CCF A類論文60餘篇, 論文被穀歌學術引用10000餘次。 曾應邀擔任過ICCV, ACCV, ICPR, FG, ICASSP等國際會議的領域主席, 現任IEEE, TIP, CVIU, PRL,Neurocomputing, FCS等國際學術刊物的編委。 研究成果獲2005年度國家科技進步二等獎,

2015年度國家自然科學二等獎, CVPR2008 Best Student Poster Award Runner-up獎。

如何看待這次AI熱潮?

谷歌AlphaGo與李世石的世紀之戰, 讓人工智慧(AI)這個話題再度火爆起來。 山世光博士早在20年前就開始做AI領域中的電腦視覺技術研究, 在這次GAIR大會分享中, 他結合自己過去的科研經歷和行業觀察, 分別從四個不同的角度分析, 給出了他對此次AI熱潮的一些看法:

從方法論角度看:過去幾十年流行的人類專家知識驅動的AI方法論被資料驅動的AI方法論全面取代。 這裡的資料主要指有監督的大資料。 人類智慧的產生是不是也完全基於有監督的大資料學習而來尚不得而知。 從這個意義上講, 計算智慧和人類智慧之間的差異也不得而知。

從學術角度來看:雖然有監督大資料驅動的方法論在某些領域已經構建出了超越人類智慧的AI,

但基於有監督大資料的深度學習是否構建機器智慧時代充分且必要的基礎性方法?他個人認為至少是不充分的, 需要新的方法論。

從演算法角度來看:主要得益於兩個方法:一是深度學習, 二是增強學習。 增強學習被大家所熟知是因為AlphaGo在圍棋上戰勝了人類最強的棋手。 但實際上增強學習在很多場景下是不能用的, 至少目前在視覺和語音處理等任務中尚未得到有效的應用。 而深度學習可類比人類學習方法裡的歸納學習, 卻不適合演繹學習。 深度學習是否可以廣泛應用於推理類任務尚不得而知。

從做電腦視覺的角度來講:包括智慧視頻監控、考勤門禁等在內的安防應用以及醫療讀圖、基於視覺的汽車輔助駕駛等都是電腦視覺技術落地的方向,

商業化產品已經雨後春筍般湧上市場。

關於演講主題中的X表示什麼意思, 山世光博士在接下來的演講中給出了X資料的五個含義, 分別是:第一, 大資料;第二, 小數據;第三, 髒資料;第四, 無監督資料;第五, 是增廣, 通過增廣獲得更大的資料集。 下面的分享實錄中會有對各個含義的詳細解讀。

為什麼要用X資料驅動?

山世光博士將深度學習演算法、強大算力、大資料比作AI革命背後的“三駕馬車”, 而這“三駕馬車“背後的現實問題是金錢投資, 需要非常厲害的牛人做深度學習演算法、搭建更加強大的計算力平臺以及收集更多的資料。

其中資料收集和標注的成本日趨昂貴, 所以他們希望在這方面看看能不能做點什麼。

關於SeetaVision視覺技術

人臉識別技術:SeetaVision的多姿態人臉檢測技術, 是在標準人臉檢測評測集FDDB上最好的方法之一。 在100個誤檢的情況下, SeetaVision的檢測率達到了92%, 此外還研發了檢測加速技術, 從而可以在嵌入式設備上實現即時的多姿態人臉檢測。 第二個人臉核心技術是面部關鍵特徵點的定位, SeetaVision實現了81個關鍵特徵點的超即時檢測與跟蹤。 SeetaVison人臉識別具體應用包括人證一致性驗證, 員工考勤與打卡、黑白名單目標人檢測等。

手勢識別:SeetaVision可以實現即時的手語翻譯, 就像語音辨識一樣, 把1000常用詞形成的手語句子翻譯成自然語言文本。 基於此, 視拓目前已經和美的合作, 將其應用于智慧家居中。

情感計算:SeetaVision的基本表情識別率超過85%,基於普通攝像頭的心率估計也非常接近醫療設備的檢測結果。

視頻結構化:面向智慧視頻監控類應用,SeetaVision實現了嵌入式設備上的即時人車跟蹤,準確度超過85%。

無人機視覺:針對無人機地面目標檢測任務,SeetaVision實現了高清視頻中地面車輛等目標的即時檢測、分類與跟蹤。

山世光博士還表示,中科視拓的終極目標是讓AI知人識面看世界,給每個AI裝上智慧的眼睛,讓它看清在跟誰交互,周圍環境如何,以及正在發生什麼事情。而面對目前市場上已有多家做人臉識別等視覺技術的創業公司,如何才能在競爭中脫穎而出,山世光博士表示,將SeetaVision的商業模式定位為“開源賦能“,走差異化競爭路線,重點關注與行業客戶之間的深度合作。

在大會分享的最後,山世光博士對AI未來發展需要注意哪些問題做了一些總結,他認為:

其一,魯棒性可能是AI和視覺智慧一個最致命的問題。其二,AI的成長需要多模態協同,不能單靠視覺智慧或語音智慧等。其三,如何基於小資料甚至是零資料準確完成各類視覺任務,還需要大量的深入研究。

以下是山世光博士在CCF-GAIR 2017的現場實錄,雷鋒網做了不改動原意的編輯:

我今天報告的題目是《X資料驅動的Seeta平臺與技術》,可能大家都在想X是什麼,這裡我們暫時認為X就是一個問號。在接下裡的報告中,我會從X資料入手,來重點介紹一下我們所做的工作。

其實我們大家都非常深切的體會到,我們正在邂逅一場前所未有的人工智慧技術革命和應用的井噴。在這樣的一個狀態下,它的背後是有“三駕馬車”或者“三個引擎”,就是深度學習演算法、強大算力以及大資料,這些因素的共同作用才產生了這一輪新的AI熱潮。

我這次報告的題目為什麼叫“X資料驅動”,主要從資料角度出發,來看對AI產業能做什麼事。

這一輪人工智慧的熱潮,從方法論的角度來講,主要是源自AI研究範式的變遷。即從人類專家知識驅動的方法論到資料驅動的方法論的變遷。我們指的資料,其實是特指有監督的大資料:一方面是資料量必須足夠大,另一方面這些資料還必須是帶有內容標籤的。人類智慧的本質同現在的計算智慧之間的差異,在目前而言還是不得而知。因此我們非常有必要從學術角度來探討,資料驅動或者有監督的大資料驅動這樣一種方法論,是否會是我們構建整個機器智慧時代的基礎設施。

當然,在目前這種有監督大資料驅動的方法論條件下,在某些領域確實已經出現AI超越人類智慧的情況。這一輪AI熱潮,從演算法角度,主要得益於兩個東西:一是深度學習,二是增強學習。增強學習被大家熟知是因為AlphaGo在圍棋上戰勝了人類最強的棋手。實際上增強學習並不是放之四海皆可用的方法,它在很多場景下是不能用的,特別是在視覺和語音等場景下並沒有得到非常有效的應用。因為它需要AI能夠自動的判斷對錯,比如說下圍棋或者一個遊戲,做得好或者不好,演算法是可以自動去判斷好或者不好、對或者錯的。像我們的視覺、聽覺這樣的一些問題,比如說做人臉識別,AI演算法本身識別錯了,它是不能夠知道自己識別錯了的,識別對了它自己也不知道,所以很難形成一個反覆運算的自我增強過程。如果是硬去反覆運算,很可能會學偏學傻,乃至走火入魔。

所以增強學習在這些問題上並沒有得到非常好的應用。深度學習目前適合解決我稱之為“好資料肥沃”的領域,而且通常只對應于人類學習方法裡的歸納學習。然而,人類的學習除了歸納學習之外,還有演繹推理。針對演繹推理,深度學習則存在嚴重短板。舉個演繹推理的例子,比如說《幾何原本》,是歐幾裡德從5條公理推演出來的。想用深度學習做這類自動推演,目前來看是完全沒有希望的。當然,這是一個很極端的例子,但我們在日常生活中是需要大量推理的,深度學習在這一點上,目前來看也沒有太多可以有作為的地方。

李開複老師在過去一段時間多次提及,在未來10年可能人工智慧會取代10種職業50%的工作。我不知道大家怎麼去看,我個人覺得保姆可能還是很難取代的,也許醫生更有可能會被取代。從我們做電腦視覺的角度來講,醫療讀圖是一個很重要的方向。對於做人臉識別或者圖像識別的人來說,保安則是我們更感興趣的群體,在未來10年,也許不是50%,而是80%的保安,會被一些自動的系統所取代。比如說我們的一個企業客戶,用我們的人臉識別技術做單位的門禁和考勤,在1萬個員工的情況下,可以實現不需要員工卡自動做識別、開門和考勤的系統,我想可能未來真的不需要一個保安坐在那兒了。

我和我的學生們在去年8月,基於計算所在視覺資訊處學習方面的研究成果做了一個公司,叫做中科視拓,形成了一個產學研聯合體,一起開發SeetaVision技術。我們的目標是讓AI能知人識面看世界,讓每個AI都長上智慧的眼睛,讓它看清它在跟誰交流、瞭解周圍正在發生什麼事情,以便智慧地應對這些場景。

我們主要的底層技術,就是在機器學習特別是深度學習理論、方法與技術。基於這些機器學習的方法,在人臉識別、情感計算、視頻結構化和無人機視覺等方面,我們有自己的一些佈局。我們過去的積累包括在這些領域的競賽中,取得一些最好的成績,其中包括人臉識別、手勢識別、行人檢測、圖像搜索等等任務。我們剛才也提到,業界已經有像商湯、Face++等等有很多前輩公司,比我們早走了多年。我們在商業模式上也希望不斷探索新的路徑。當前階段,我們採取”開源賦能“的差異化做法與一些重點客戶開展了深度合作。

所謂的開源,是指我們可以給B端客戶提供源碼級的引擎技術。更進一步的是賦能,我們可以提供生成這些引擎的引擎技術。通俗地講,我們不但賣雞蛋,還賣下蛋的雞,這是完全不同的合作模式。去年8月中科視拓開源了Seetaface人臉識別引擎,它雖然不是業界最好的人臉技術,但提供了一個優秀的基準,從而顯著地提升了業界基準水準,也為一些公司提供了參照。有很多客戶把Seetaface代碼用到產品中,並進而與我們建立了更深度的合作。

在這裡我也展示我們的一些核心技術:

多視角人臉檢測技術

在人臉檢測方面實現多姿態的檢測,在FDDB上是最好的方法之一。其實人臉檢測大家都非常熟悉,就是我們把這個畫面有多少個人臉找出來。FDDB也是在這個領域裡面被廣泛採用的標準評測,我們在100個誤檢時達到了接近93%的檢測率。另外,我們還實現了很多加速的方法,實現人臉的快速檢測,包括在一些嵌入式設備上實現即時的檢測。

面部關鍵點定位技術

面部關鍵點定位技術,是指在檢測到人臉的基礎上,實現一面部關鍵點的定位。我們的技術可以定位80多個面部特徵點,當然我們也可以定位更多,但數目並不是關鍵。我們已實現超即時的特徵點定位,在相關的資料庫中我們也取得了最好的成績。基於這些技術,我們落地了一些人臉識別應用,包括1:1的人證比對、網紋身份證照片人臉驗證、以及人臉考勤系統等。與簡單人證比對相比,在公安的應用場景,身份證查驗中心會把照片加一個網紋,再傳回來,而我們則需要首先把網紋去掉,再跟現場人員比較看看是不是這個人。目前我們的演算法是可以正確判斷的。在人臉考勤方面,技術已經成功應用,可以實現1萬員工的考勤和門禁,在誤識率約為1%的情況下,可以達到95%以上的正確識別率。

情感計算與心率估計

此外我們公司還在情緒感知方面有一些積累,可以實現85%以上的表情識別率。SeetaVision還可以實現準確的心律估計,這裡的心律估計是指通過攝像頭拍攝人臉部視頻來估計人的心跳次數。只要攝像條件好,即可準確估計。

手勢識別與視頻結構化分析

我們還有一些手勢識別的技術,以及手語即時翻譯技術。手語識別是指,用手語打一句話,把手語即時翻譯成文本,我們目前已經和美的合作,實現對一些基本手勢的準確識別,用於智慧家居控制。

此外在視頻結構化分析方面,我們也可以實現人車的跟蹤,在TX1上做到準確度85%以上的即時檢測。

無人機視覺技術

我們還有一個方向是在做無人機視覺,能夠實現地面車輛目標檢測,以及地面車輛的即時跟蹤。左圖是地面車輛目標檢測。每個綠框都是我們檢測出來的車輛。我們特意選了一個堵車的場景,在目標如此小且密集的情況下,人為識別都是有很多困難的,但我們的演算法能夠實現接近90%精度的檢測。右邊的視頻是實現跟蹤,能夠實現對地面上車輛的即時跟蹤。

下面我回到報告的主題上來,即X資料驅動,針對X是什麼,我想講幾種不同的場景。

第一,X=大,就是大資料驅動的視覺引擎的設計。現在,無論大公司還是小公司,都是在拼命的收集資料,進行深度學習模型的優化和訓練。我們在人臉方面有百萬級人數的億級人臉資料,每個人又進一步有很多不同的場景和照片。我們在車輛和行人方面也有千萬量級的圖像和視頻,我們對這些資料做了大量的標注,如:人的頭部、軀幹和四肢的標注信息。在無人機視覺方面,我們大概三四個月時間,就積累了百萬量級的無人機視覺資料,可以實現對車輛目標以及車輛類型的檢測和估計。在大資料的條件下,類似於人的熟能生巧和見多識廣,見得多你就可以積累出來非常多的經驗。

第二,X=小,在很多場景下,我們人類獲得智慧的能力並沒有依賴于大量的資料學習,反而是一些小資料。所以在小資料的情況下,如何使得我們的演算法也能夠有效果。

最通常的思路是做遷移學習,所謂遷移學習最簡單的是做Finetune,我們把一個已經訓練好的模型,再用小量的資料做調整和優化,使得它適應這些小資料所代表的應用場景。例如:我們在2015年參加感知年齡估計的競賽並取得了亞軍。我們採用的演算法是首先在人臉識別的資料庫裡面,利用百萬級的資料做訓練,再用幾萬量級真實年齡的資料做Finetune,最後在競賽方提供的感知年齡的測試資料集上,取得了非常好的效果。

在表情識別方面,我們在2014年參加了一個競賽,因為沒有大量的表情資料,因此,我們採用人臉識別的資料做訓練,直接拿人臉識別的特徵來做,最後也是取得第一名的成績。可見我們很多的任務,特別是相關的任務,是可以運用相關領域的資料來實現遷移的。

另外一個例子,比如面部特徵點定位,要用到在面部標注點的資料集。現在學術界或者工業界可能會有很多不同類型的資料,比如一個資料集可能是68個點、另外一個資料集是74個點,它們之間的定義是不一樣的,如何把它合併起來,使它變大,從而形成更好的演算法,也是一個很值得關注的方向。

我們的一個博士生就做了這樣的一個演算法,利用預測填補和深度回歸的方式解決問題,其背後也是深度學習的方法以及一些適應性的調整。

另外一個例子,手機上會有越來越多的攝像頭,這些攝像頭有可能是彩色的、也有可能是黑白的、還有可能是深度的,還有可能是近紅外的。這些攝像頭採集的資料,如何實現共用,這也是一個非常值得研究的話題。比如說在RGB-D資料集不足的情況下,如何基於大量的RGB資料來完成跨模態的融合,以實現更好的結果。

首先通過不同模態的資料分別建立深度學習的模型,之後再通過共有的網路去實現它們的融合,再回饋回來調整每個模組的深度模型,最終可以實現不同模態資料之間的跨模態的比對以及融合利用。

這種方式其實也是在利用小資料和大資料的關係,在小資料條件下更好地學習演算法模型。利用這樣的一種方式,我們在去年2016CVPR上發佈的模型,實現了彩色和深度資訊之間的融合,乃至比對。這就是第二個X=小資料。

第三,X=髒,還有很多情況下是髒資料。所謂的髒資料,比如在百度圖片搜索“成龍”,確實會回饋很多成龍的照片,但是也會有大量的不是成龍的照片。而我們又不想雇1000個人大量的資料把它標注出來,乾脆就基於有雜訊的資料實現機器學習。所以我們在今年提出具有“自糾錯學習”能力的深度學習方法,在深度學習的過程中,一邊去學習演算法,一邊去估計哪些樣本的標籤可能是錯誤的,我們把一些可能錯誤的標籤修正過來,從而得到更好的演算法。利用這種策略,我們發現,即使加了40%或者60%的錯誤標籤,我們的演算法也能夠實現不錯的深度學習效果。

X=髒,這個髒還可能有另外一層含義,比如說有遮擋的情況。我們也提出了一個演算法,在這個任務裡面,我們能夠把面部的遮擋部分、髒的部分補出來,補出來之後再去實現感知。把這兩個過程反覆運算起來,形成聯合的學習,這個工作發表在去年的CVPR上面,也是取得了非常不錯的效果。

第四,X還可能是無監督資料。所謂的無監督資料是指沒有標籤可以利用的資料。想像一個場景,比如我們手裡面有大量東方人的有標籤資料,但是有標籤的黑人資料相對較少,而我們可以在網上找到大量的無標籤的黑人資料,我們如何能夠利用這些沒有標籤的資料進行識別,這是一個很重要的問題。因為只用東方人的資料做訓練,去識別黑人效果會非常差,反過來也是一樣,所以我們要進行模型的調整,以實現從東方人資料到無監督的黑人資料的遷移。我們這方面的工作發表在ICCV2015上面。

第五,X還可以是增廣資料,即通過對已有少量資料進行修改的方式,來生成大量資料。人類有一種能力叫做舉一反三,比如說給大家一張平面的照片,可能看到這張很帥的照片之後,你就會浮想聯翩,怎麼浮想呢?可能會想這個人從側面看是什麼樣子,他笑起來是什麼樣子,他戴上眼鏡會變成什麼樣子,我們具備這種能力。我們能不能讓機器也有這樣的能力,從一張照片增廣出大量資料,用於學習。這裡示例的是我們基於三維模型的方法做資料增廣的效果,我們可以生成這位元帥哥在不同視角條件下的照片。

完成這個任務,另外一種方法是採用這兩年非常火的GAN方法。輸入最左側的照片,用GAN可以生成不同表情的照片。還可以有更加複雜的,比如說帶上眼鏡,加上鬍子等等。當然這個也是有條件的,並不是說每張照片都可以做得這麼好,基於GAN生成的人臉圖像是不是能夠用於提升演算法,目前還是存疑的。

總結一下,X等於什麼呢?大資料、小資料、無監督資料、髒資料、或者通過增廣的方式,實現更大量資料的收集。其實還有一個非常重要的角度,就是類比人,人在很多時候都是自尋煩惱,當然不是自尋煩惱,是自尋資料。例如,在我們觀察一個物體的時候,如果從一個角度不能全面觀察,我們會移動來收集不同視角的資料,這種主動收集資料的能力,是現階段AI系統升級為自主AI系統的必備能力,特別是對自主無人機和機器人。

此外,從整個視覺智慧的宏觀角度來說,我們現在已經非常清晰的看到,魯棒性是視覺智慧乃至整個AI的核心問題之一,即如何能夠實現萬無一失。其實,現在像人臉識別的場景下,有些情況下我們已經做到萬無一失,但是仍有很多實際應用的場景,例如智慧駕駛等領域,我們需要的是百萬無一失,意味著我們需要百萬分之一的錯誤率。在這樣的條件下,才能夠有更加廣泛的應用。在這種情況下,是不是僅有大資料就足夠,這一點還存有疑問。

我們類比人類的發育成長過程,人類具備兩個特性:一是多模態數據協同;二是基於小樣本的自主學習。

多模態資料協同

人類的多模態資料協同是指什麼呢?對於人來說,除了眼睛之外,我們有很多其它資訊來對我們的智力發育提供説明,包括語音、姿態、動作、以及背後有大量的知識庫作支撐。因此,人本身是需要一個多模態系統協同工作的魯棒AI,這帶給我們一個思路,AI的成長和發育也需要多模態。

基於小樣本的自主學習

對人的智慧發育來說,我們生來就有“大腦”,有所謂的智商,我們從一出生的時候,神經系統基本上發育的差不 多,到3歲就基本發育完畢。也就是說,人類作為一種高級生物,經過數百萬年甚至更長的時間進化出了這樣的一個”先天腦“模型。假設我們拿深度學習作為一個模型來類比,相當於人在出生的時候,祖先已經幫我們利用大量資料訓練出了一個深度學習模型。

在後期的成長過程中,其實是對這個深度模型基於小資料的不斷調整和適應性的優化。所以說,我們認為AI發育的非常重要的一點,就是如何基於小資料甚至是0資料完成智慧的發育和後天的學習。比如說我跟大家描述一下某個人長成什麼樣子,你並沒有見過這個人,你並沒有見過這個人的照片,我們稱為0資料,你如何能夠識別這個人,是對AI的一個挑戰。類似這樣的應用場景,將來會有非常多的研究空間。

綜上,從人類智慧的角度出發來看AI,AI要想在更多的場景下實現強大的視覺能力,還需要基於小資料乃至0資料情況下的自主學習能力、以及多模態的資料協同能力,這兩種能力為AI的發育提供了可能性,也為AI真正理解世界並服務人類提供了可能。

我的演講到這裡,謝謝大家!

雷鋒網整理編輯

將其應用于智慧家居中。

情感計算:SeetaVision的基本表情識別率超過85%,基於普通攝像頭的心率估計也非常接近醫療設備的檢測結果。

視頻結構化:面向智慧視頻監控類應用,SeetaVision實現了嵌入式設備上的即時人車跟蹤,準確度超過85%。

無人機視覺:針對無人機地面目標檢測任務,SeetaVision實現了高清視頻中地面車輛等目標的即時檢測、分類與跟蹤。

山世光博士還表示,中科視拓的終極目標是讓AI知人識面看世界,給每個AI裝上智慧的眼睛,讓它看清在跟誰交互,周圍環境如何,以及正在發生什麼事情。而面對目前市場上已有多家做人臉識別等視覺技術的創業公司,如何才能在競爭中脫穎而出,山世光博士表示,將SeetaVision的商業模式定位為“開源賦能“,走差異化競爭路線,重點關注與行業客戶之間的深度合作。

在大會分享的最後,山世光博士對AI未來發展需要注意哪些問題做了一些總結,他認為:

其一,魯棒性可能是AI和視覺智慧一個最致命的問題。其二,AI的成長需要多模態協同,不能單靠視覺智慧或語音智慧等。其三,如何基於小資料甚至是零資料準確完成各類視覺任務,還需要大量的深入研究。

以下是山世光博士在CCF-GAIR 2017的現場實錄,雷鋒網做了不改動原意的編輯:

我今天報告的題目是《X資料驅動的Seeta平臺與技術》,可能大家都在想X是什麼,這裡我們暫時認為X就是一個問號。在接下裡的報告中,我會從X資料入手,來重點介紹一下我們所做的工作。

其實我們大家都非常深切的體會到,我們正在邂逅一場前所未有的人工智慧技術革命和應用的井噴。在這樣的一個狀態下,它的背後是有“三駕馬車”或者“三個引擎”,就是深度學習演算法、強大算力以及大資料,這些因素的共同作用才產生了這一輪新的AI熱潮。

我這次報告的題目為什麼叫“X資料驅動”,主要從資料角度出發,來看對AI產業能做什麼事。

這一輪人工智慧的熱潮,從方法論的角度來講,主要是源自AI研究範式的變遷。即從人類專家知識驅動的方法論到資料驅動的方法論的變遷。我們指的資料,其實是特指有監督的大資料:一方面是資料量必須足夠大,另一方面這些資料還必須是帶有內容標籤的。人類智慧的本質同現在的計算智慧之間的差異,在目前而言還是不得而知。因此我們非常有必要從學術角度來探討,資料驅動或者有監督的大資料驅動這樣一種方法論,是否會是我們構建整個機器智慧時代的基礎設施。

當然,在目前這種有監督大資料驅動的方法論條件下,在某些領域確實已經出現AI超越人類智慧的情況。這一輪AI熱潮,從演算法角度,主要得益於兩個東西:一是深度學習,二是增強學習。增強學習被大家熟知是因為AlphaGo在圍棋上戰勝了人類最強的棋手。實際上增強學習並不是放之四海皆可用的方法,它在很多場景下是不能用的,特別是在視覺和語音等場景下並沒有得到非常有效的應用。因為它需要AI能夠自動的判斷對錯,比如說下圍棋或者一個遊戲,做得好或者不好,演算法是可以自動去判斷好或者不好、對或者錯的。像我們的視覺、聽覺這樣的一些問題,比如說做人臉識別,AI演算法本身識別錯了,它是不能夠知道自己識別錯了的,識別對了它自己也不知道,所以很難形成一個反覆運算的自我增強過程。如果是硬去反覆運算,很可能會學偏學傻,乃至走火入魔。

所以增強學習在這些問題上並沒有得到非常好的應用。深度學習目前適合解決我稱之為“好資料肥沃”的領域,而且通常只對應于人類學習方法裡的歸納學習。然而,人類的學習除了歸納學習之外,還有演繹推理。針對演繹推理,深度學習則存在嚴重短板。舉個演繹推理的例子,比如說《幾何原本》,是歐幾裡德從5條公理推演出來的。想用深度學習做這類自動推演,目前來看是完全沒有希望的。當然,這是一個很極端的例子,但我們在日常生活中是需要大量推理的,深度學習在這一點上,目前來看也沒有太多可以有作為的地方。

李開複老師在過去一段時間多次提及,在未來10年可能人工智慧會取代10種職業50%的工作。我不知道大家怎麼去看,我個人覺得保姆可能還是很難取代的,也許醫生更有可能會被取代。從我們做電腦視覺的角度來講,醫療讀圖是一個很重要的方向。對於做人臉識別或者圖像識別的人來說,保安則是我們更感興趣的群體,在未來10年,也許不是50%,而是80%的保安,會被一些自動的系統所取代。比如說我們的一個企業客戶,用我們的人臉識別技術做單位的門禁和考勤,在1萬個員工的情況下,可以實現不需要員工卡自動做識別、開門和考勤的系統,我想可能未來真的不需要一個保安坐在那兒了。

我和我的學生們在去年8月,基於計算所在視覺資訊處學習方面的研究成果做了一個公司,叫做中科視拓,形成了一個產學研聯合體,一起開發SeetaVision技術。我們的目標是讓AI能知人識面看世界,讓每個AI都長上智慧的眼睛,讓它看清它在跟誰交流、瞭解周圍正在發生什麼事情,以便智慧地應對這些場景。

我們主要的底層技術,就是在機器學習特別是深度學習理論、方法與技術。基於這些機器學習的方法,在人臉識別、情感計算、視頻結構化和無人機視覺等方面,我們有自己的一些佈局。我們過去的積累包括在這些領域的競賽中,取得一些最好的成績,其中包括人臉識別、手勢識別、行人檢測、圖像搜索等等任務。我們剛才也提到,業界已經有像商湯、Face++等等有很多前輩公司,比我們早走了多年。我們在商業模式上也希望不斷探索新的路徑。當前階段,我們採取”開源賦能“的差異化做法與一些重點客戶開展了深度合作。

所謂的開源,是指我們可以給B端客戶提供源碼級的引擎技術。更進一步的是賦能,我們可以提供生成這些引擎的引擎技術。通俗地講,我們不但賣雞蛋,還賣下蛋的雞,這是完全不同的合作模式。去年8月中科視拓開源了Seetaface人臉識別引擎,它雖然不是業界最好的人臉技術,但提供了一個優秀的基準,從而顯著地提升了業界基準水準,也為一些公司提供了參照。有很多客戶把Seetaface代碼用到產品中,並進而與我們建立了更深度的合作。

在這裡我也展示我們的一些核心技術:

多視角人臉檢測技術

在人臉檢測方面實現多姿態的檢測,在FDDB上是最好的方法之一。其實人臉檢測大家都非常熟悉,就是我們把這個畫面有多少個人臉找出來。FDDB也是在這個領域裡面被廣泛採用的標準評測,我們在100個誤檢時達到了接近93%的檢測率。另外,我們還實現了很多加速的方法,實現人臉的快速檢測,包括在一些嵌入式設備上實現即時的檢測。

面部關鍵點定位技術

面部關鍵點定位技術,是指在檢測到人臉的基礎上,實現一面部關鍵點的定位。我們的技術可以定位80多個面部特徵點,當然我們也可以定位更多,但數目並不是關鍵。我們已實現超即時的特徵點定位,在相關的資料庫中我們也取得了最好的成績。基於這些技術,我們落地了一些人臉識別應用,包括1:1的人證比對、網紋身份證照片人臉驗證、以及人臉考勤系統等。與簡單人證比對相比,在公安的應用場景,身份證查驗中心會把照片加一個網紋,再傳回來,而我們則需要首先把網紋去掉,再跟現場人員比較看看是不是這個人。目前我們的演算法是可以正確判斷的。在人臉考勤方面,技術已經成功應用,可以實現1萬員工的考勤和門禁,在誤識率約為1%的情況下,可以達到95%以上的正確識別率。

情感計算與心率估計

此外我們公司還在情緒感知方面有一些積累,可以實現85%以上的表情識別率。SeetaVision還可以實現準確的心律估計,這裡的心律估計是指通過攝像頭拍攝人臉部視頻來估計人的心跳次數。只要攝像條件好,即可準確估計。

手勢識別與視頻結構化分析

我們還有一些手勢識別的技術,以及手語即時翻譯技術。手語識別是指,用手語打一句話,把手語即時翻譯成文本,我們目前已經和美的合作,實現對一些基本手勢的準確識別,用於智慧家居控制。

此外在視頻結構化分析方面,我們也可以實現人車的跟蹤,在TX1上做到準確度85%以上的即時檢測。

無人機視覺技術

我們還有一個方向是在做無人機視覺,能夠實現地面車輛目標檢測,以及地面車輛的即時跟蹤。左圖是地面車輛目標檢測。每個綠框都是我們檢測出來的車輛。我們特意選了一個堵車的場景,在目標如此小且密集的情況下,人為識別都是有很多困難的,但我們的演算法能夠實現接近90%精度的檢測。右邊的視頻是實現跟蹤,能夠實現對地面上車輛的即時跟蹤。

下面我回到報告的主題上來,即X資料驅動,針對X是什麼,我想講幾種不同的場景。

第一,X=大,就是大資料驅動的視覺引擎的設計。現在,無論大公司還是小公司,都是在拼命的收集資料,進行深度學習模型的優化和訓練。我們在人臉方面有百萬級人數的億級人臉資料,每個人又進一步有很多不同的場景和照片。我們在車輛和行人方面也有千萬量級的圖像和視頻,我們對這些資料做了大量的標注,如:人的頭部、軀幹和四肢的標注信息。在無人機視覺方面,我們大概三四個月時間,就積累了百萬量級的無人機視覺資料,可以實現對車輛目標以及車輛類型的檢測和估計。在大資料的條件下,類似於人的熟能生巧和見多識廣,見得多你就可以積累出來非常多的經驗。

第二,X=小,在很多場景下,我們人類獲得智慧的能力並沒有依賴于大量的資料學習,反而是一些小資料。所以在小資料的情況下,如何使得我們的演算法也能夠有效果。

最通常的思路是做遷移學習,所謂遷移學習最簡單的是做Finetune,我們把一個已經訓練好的模型,再用小量的資料做調整和優化,使得它適應這些小資料所代表的應用場景。例如:我們在2015年參加感知年齡估計的競賽並取得了亞軍。我們採用的演算法是首先在人臉識別的資料庫裡面,利用百萬級的資料做訓練,再用幾萬量級真實年齡的資料做Finetune,最後在競賽方提供的感知年齡的測試資料集上,取得了非常好的效果。

在表情識別方面,我們在2014年參加了一個競賽,因為沒有大量的表情資料,因此,我們採用人臉識別的資料做訓練,直接拿人臉識別的特徵來做,最後也是取得第一名的成績。可見我們很多的任務,特別是相關的任務,是可以運用相關領域的資料來實現遷移的。

另外一個例子,比如面部特徵點定位,要用到在面部標注點的資料集。現在學術界或者工業界可能會有很多不同類型的資料,比如一個資料集可能是68個點、另外一個資料集是74個點,它們之間的定義是不一樣的,如何把它合併起來,使它變大,從而形成更好的演算法,也是一個很值得關注的方向。

我們的一個博士生就做了這樣的一個演算法,利用預測填補和深度回歸的方式解決問題,其背後也是深度學習的方法以及一些適應性的調整。

另外一個例子,手機上會有越來越多的攝像頭,這些攝像頭有可能是彩色的、也有可能是黑白的、還有可能是深度的,還有可能是近紅外的。這些攝像頭採集的資料,如何實現共用,這也是一個非常值得研究的話題。比如說在RGB-D資料集不足的情況下,如何基於大量的RGB資料來完成跨模態的融合,以實現更好的結果。

首先通過不同模態的資料分別建立深度學習的模型,之後再通過共有的網路去實現它們的融合,再回饋回來調整每個模組的深度模型,最終可以實現不同模態資料之間的跨模態的比對以及融合利用。

這種方式其實也是在利用小資料和大資料的關係,在小資料條件下更好地學習演算法模型。利用這樣的一種方式,我們在去年2016CVPR上發佈的模型,實現了彩色和深度資訊之間的融合,乃至比對。這就是第二個X=小資料。

第三,X=髒,還有很多情況下是髒資料。所謂的髒資料,比如在百度圖片搜索“成龍”,確實會回饋很多成龍的照片,但是也會有大量的不是成龍的照片。而我們又不想雇1000個人大量的資料把它標注出來,乾脆就基於有雜訊的資料實現機器學習。所以我們在今年提出具有“自糾錯學習”能力的深度學習方法,在深度學習的過程中,一邊去學習演算法,一邊去估計哪些樣本的標籤可能是錯誤的,我們把一些可能錯誤的標籤修正過來,從而得到更好的演算法。利用這種策略,我們發現,即使加了40%或者60%的錯誤標籤,我們的演算法也能夠實現不錯的深度學習效果。

X=髒,這個髒還可能有另外一層含義,比如說有遮擋的情況。我們也提出了一個演算法,在這個任務裡面,我們能夠把面部的遮擋部分、髒的部分補出來,補出來之後再去實現感知。把這兩個過程反覆運算起來,形成聯合的學習,這個工作發表在去年的CVPR上面,也是取得了非常不錯的效果。

第四,X還可能是無監督資料。所謂的無監督資料是指沒有標籤可以利用的資料。想像一個場景,比如我們手裡面有大量東方人的有標籤資料,但是有標籤的黑人資料相對較少,而我們可以在網上找到大量的無標籤的黑人資料,我們如何能夠利用這些沒有標籤的資料進行識別,這是一個很重要的問題。因為只用東方人的資料做訓練,去識別黑人效果會非常差,反過來也是一樣,所以我們要進行模型的調整,以實現從東方人資料到無監督的黑人資料的遷移。我們這方面的工作發表在ICCV2015上面。

第五,X還可以是增廣資料,即通過對已有少量資料進行修改的方式,來生成大量資料。人類有一種能力叫做舉一反三,比如說給大家一張平面的照片,可能看到這張很帥的照片之後,你就會浮想聯翩,怎麼浮想呢?可能會想這個人從側面看是什麼樣子,他笑起來是什麼樣子,他戴上眼鏡會變成什麼樣子,我們具備這種能力。我們能不能讓機器也有這樣的能力,從一張照片增廣出大量資料,用於學習。這裡示例的是我們基於三維模型的方法做資料增廣的效果,我們可以生成這位元帥哥在不同視角條件下的照片。

完成這個任務,另外一種方法是採用這兩年非常火的GAN方法。輸入最左側的照片,用GAN可以生成不同表情的照片。還可以有更加複雜的,比如說帶上眼鏡,加上鬍子等等。當然這個也是有條件的,並不是說每張照片都可以做得這麼好,基於GAN生成的人臉圖像是不是能夠用於提升演算法,目前還是存疑的。

總結一下,X等於什麼呢?大資料、小資料、無監督資料、髒資料、或者通過增廣的方式,實現更大量資料的收集。其實還有一個非常重要的角度,就是類比人,人在很多時候都是自尋煩惱,當然不是自尋煩惱,是自尋資料。例如,在我們觀察一個物體的時候,如果從一個角度不能全面觀察,我們會移動來收集不同視角的資料,這種主動收集資料的能力,是現階段AI系統升級為自主AI系統的必備能力,特別是對自主無人機和機器人。

此外,從整個視覺智慧的宏觀角度來說,我們現在已經非常清晰的看到,魯棒性是視覺智慧乃至整個AI的核心問題之一,即如何能夠實現萬無一失。其實,現在像人臉識別的場景下,有些情況下我們已經做到萬無一失,但是仍有很多實際應用的場景,例如智慧駕駛等領域,我們需要的是百萬無一失,意味著我們需要百萬分之一的錯誤率。在這樣的條件下,才能夠有更加廣泛的應用。在這種情況下,是不是僅有大資料就足夠,這一點還存有疑問。

我們類比人類的發育成長過程,人類具備兩個特性:一是多模態數據協同;二是基於小樣本的自主學習。

多模態資料協同

人類的多模態資料協同是指什麼呢?對於人來說,除了眼睛之外,我們有很多其它資訊來對我們的智力發育提供説明,包括語音、姿態、動作、以及背後有大量的知識庫作支撐。因此,人本身是需要一個多模態系統協同工作的魯棒AI,這帶給我們一個思路,AI的成長和發育也需要多模態。

基於小樣本的自主學習

對人的智慧發育來說,我們生來就有“大腦”,有所謂的智商,我們從一出生的時候,神經系統基本上發育的差不 多,到3歲就基本發育完畢。也就是說,人類作為一種高級生物,經過數百萬年甚至更長的時間進化出了這樣的一個”先天腦“模型。假設我們拿深度學習作為一個模型來類比,相當於人在出生的時候,祖先已經幫我們利用大量資料訓練出了一個深度學習模型。

在後期的成長過程中,其實是對這個深度模型基於小資料的不斷調整和適應性的優化。所以說,我們認為AI發育的非常重要的一點,就是如何基於小資料甚至是0資料完成智慧的發育和後天的學習。比如說我跟大家描述一下某個人長成什麼樣子,你並沒有見過這個人,你並沒有見過這個人的照片,我們稱為0資料,你如何能夠識別這個人,是對AI的一個挑戰。類似這樣的應用場景,將來會有非常多的研究空間。

綜上,從人類智慧的角度出發來看AI,AI要想在更多的場景下實現強大的視覺能力,還需要基於小資料乃至0資料情況下的自主學習能力、以及多模態的資料協同能力,這兩種能力為AI的發育提供了可能性,也為AI真正理解世界並服務人類提供了可能。

我的演講到這裡,謝謝大家!

雷鋒網整理編輯

Next Article
喜欢就按个赞吧!!!
点击关闭提示