圖像識別的三生萬物：打拐、無人車到智慧社會

猜中了結尾，卻沒有猜中開頭。一個福建的小夥子找到了失散20多年的親生父母，起因卻是幾年前第一次吃重慶烤魚，感覺“整個人都得到了昇華”！從烤魚到發現自己的真實身份，這不是個段子，也不是韓劇，更不是《舌尖上的打拐》，而是來自基因的信號，最後通過技術匹配——跨代的人臉識別，有了happy ending。

百度研究院院長林元慶

技術改變生活，這是最好的注腳。圖像識別，和語音辨識、機器翻譯類似，是人工智慧（AI）的細分領域，也是基礎領域。在圖像識別領域，説明福建小夥子尋親重慶的百度，正體現出技術和應用的領導者地位。在4月中旬的百度技術開放日上，不僅有科學家深入講解圖像識別的最新技術和應用基礎，而且還對開發者和技術人員“開放”了這些能力得以“加持”的基礎。我們離智慧社會的距離，似乎又近了一步。

百億規模的圖片庫+深度學習演算法

和人工智慧類似，圖像識別在學術界也不是新概念，大約50年前，有著“人工智慧之父”稱號的馬文•明斯基，提出讓電腦外接相機來識別相機看到的東西。這個見地在今天看來稀鬆平常，但是在那個年代能提出則相當不易。

圖像識別最初的發展與OCR（Optical Character Recognition，光學字元辨識）有一定交集，就是電腦對文字的閱讀。靠譜的圖像識別方法是從上個世紀末SIFT圖像特徵的提出開始。在之後的十幾年裡，研究者們大多是從特徵或模型來進攻這個難題。

2012年前後，深度卷積神經網路在圖像識別領域開始應用，則是同時去解決模型和特徵的問題。從這時開始既可以通過深度學習直接從圖像圖元開始訓練圖像識別模型，也可以通過同樣的訓練得到圖像的更有效的特徵描述，

然後採用傳統的機器學習模型來訓練識別模型。基本上，深度學習的方法擊敗了所有傳統的方法，使得圖像識別的準確率向前邁了很大一步。

百度是最早將深度學習的方法應用於圖像識別領域的企業，並將這些技術應用在手機百度圖像搜索等諸多產品上，但是業界和用戶對此的瞭解並不多。直到今年年初《最強大腦4》上，小度在模糊狀態下的圖像識別、跨年齡人臉識別、跨代人臉識別上的精彩表現，讓很多觀眾和網友印象深刻，也第一次感受到了百度在此方面的技術強大，甚至可以用於“打拐”。

“上《最強大腦》的歷程，是節目組找到百度。但是讓我震驚的是，他們之前根本不知道百度在做人臉識別，其實我們的技術挺好的。 ”百度研究院院長林元慶說。此前，百度超級電腦Minwa在一項以 ImageNet 物件分類為基準的人工智慧測試中，圖像識別的錯誤率僅為4.58%，超越了人類水準，同時也超越了微軟和穀歌。

百度研究院內部評估了一下，很希望人工智慧能做到極致，

和特別強的人類選手來比可以瞭解技術到底做到哪個水準， “如果輸了的話，回去還得繼續做研發，如果贏了的話，也得回去做研發，只是希望我們真正把技術到極限，能夠更好的服務到人類。 ”

以在《最強大腦4》上完成的“跨代人臉識別”為例，小度憑藉這個能力在與有著鬼才之眼的“水哥”較量取勝後，今年3月份，百度與全國最大的尋親平臺“寶貝回家”開展合作，首批2萬多條尋親資料接入百度跨年齡人臉識別系統對比評測，並篩選出部分疑似案例。

“人臉識別基本上是有兩個技術，一個是檢測，還有一個是識別，我可以很自信地說，在這一塊現在沒有人能做的比我們好。”林元慶說，那為什麼百度圖像識別能做到如此好呢？因為其人工技能技術上的領先，加上其積累的互聯網上百億張圖片。

人工智慧技術的研發，基本上有四個非常重要的要素，第一是機器學習的演算法，特別是深度學習，第二是大資料，第三是大計算，以及百度一直強調的大應用。而且百度希望做的這些技術能夠形成閉環，並能將百度大腦的能力向外輸出，真正實現“讓人工智慧流行起來”。

“天智慧”在各行業中推進AI

現在，是將人工智慧逐步融入生活的時代了。無論是語音辨識、圖像識別還是機器翻譯都有了不少應用場景。對於技術的理想主義者們來說，願景是讓人工智慧解決各種問題，這需要全世界所有人都參與進來，因為多樣化的團隊才是強大的團隊，多樣化的用戶會造就完美的人工智慧。百度將致力於塑造開放平臺，共用大資料等資源，並作為行業中堅力量推進AI技術，這也是本屆百度技術開放日的初衷。

百度基礎技術負責人、百度雲聯席總經理劉煬

百度基礎技術負責人、百度雲聯席總經理劉煬在百度技術開放日時表示，今天是一個ABC的時代，A是AI，B是Big Data，C是Cloud，百度的業務模式天生就是以ABC為核心技術的一個路徑。百度是一個以搜索起家的公司，搜索從第一天起就是非常大的資料鏈，這就奠定了百度在B和C的基礎，百度作為搜索公司有很多自然語言處理的需求，也就是人工智慧。所以百度商業模式，百度業務模式，就奠定了百度的技術是以ABC為基礎的。

國內現階段的人工智慧是以大資料為主的，具有深度學習演算法的人工智慧。百度作為一家以ABC為基礎的技術公司，擁有天然的大資料基因，所以圖像識別等能實現突破，而這樣的技術正在全面開放。

以百度雲人工智慧平臺級解決方案“天智”為例，在資料層面會這樣一些鏈條，比如資料的收集、存儲，在存儲之後，需要訓練這些資料，並把模型存儲起來，之後這個模型就可以用到線上預測，為使用者提供服務了。在預測階段，有可能產生一些其他的資料，系統會將這些資料重新收起回來，形成良性的閉環。針對這種最常見、最普通的場景推出來的解決場景，在百度雲上，就是百度雲深度學習平臺。

在技術層面上，如今GPU的市場行情維持在價格昂貴的階段，為了不造成浪費，能夠將GPU百分之百利用起來，百度研發的分散式集群可以讓GPU進行分鐘計費，用戶只有在使用過程中才需要付費。底層支援的最先進GPU加速器，能夠有效進行資源管理優化，並支持私有化部署。

百度雲使用的GPU BOX是百度自己的GPU伺服器，也是底層深度學習平臺的引擎，經過嚴格的壓力、溫度等測試，可以充分利用資源，不浪費一分鐘的時間。對於外部開放，百度雲深度學習平臺已經將語音辨識、電腦識別等承接起來，用戶可以在這個平臺上做任何想做的事情。

天智是繼“天算”、“天像”和“天工”三大智能平臺後，百度雲發佈的第四大平臺級解決方案，主要圍繞人工智慧技術能力的開放和輸出。劉煬表示，萬物聯網離不開人工智慧，百度雲的願景就是開源開放，提供各種各樣的框架給用戶使用，與領先的人工智慧技術公司合作升級，是一個對於早日跨入“智慧社會”的門檻、對於企業的轉型升級來講是非常重要的部署。

從圖像識別+到智慧社會

智慧革命，它的過程會轟轟烈烈，但它的成果將會是一條寬廣平緩的河流。人工智慧領域的權威人士都認為，在不久的未來，智慧流會像今天的電流一樣平靜地環繞、支援著我們，在一切環節提供養料，徹底改變人類經濟、政治、社會、生活的形態。這是百度創始人李彥宏在他的新書《智慧革命》的自序。

未來世界的人們將像穿衣吃飯一樣享用著人工智慧而無所察覺。但是在從技術到應用的環節，技術工作者的努力是不可忽視的。對於圖像識別來說，真實世界是很複雜的，需要識別的覆蓋率、準確率都要高，而且速度要快，才能達到理想的識別效果。而具體應用場景除了眾所周知的刷臉，比如百度大廈上線的“刷閘機、送炸雞”的門禁，數萬名員工上班刷閘機如果識別錯誤，就能被送“炸雞”，而上線一個多月後，炸雞才送出去一份。

除了用於安保、金融認證等環節，圖像識別還能廣泛應用於醫療、教育、無人車等各個應用層次。以無人車領域為例，在交通方面，百度擁有國際最佳的交通場景物體識別技術，在國際通用街景資料集KITTI的車輛識別準確率達到89.32%；而圖像技術的積累可以輔助無人車更為精細的判斷交通路況，例如判斷紅綠燈就是一個非常重要的事情，其次可以幫助判斷有些誤闖馬路的行人實行保護，這也是非常重要的第一點。

由感知平臺、機器學習平臺和深度學習平臺三部分組成的百度雲天智平臺，針對這些不同的應用領域，都能提供人工智慧服務。感知平臺主要包括圖像技術(文字識別和人臉識別)、語音技術(語音辨識、語音合成和聲紋識別)和自然語言處理(NLP Cloud)，可以應用于智慧客服、身份驗證、內容審核等場景，應用開發者可針對特定場景的應用直接調用API。在這些技術方面，百度均處於行業領先地位。

機器學習平臺是百度雲端託管的機器學習服務，可以打通機器學習全流程，內置20多種高性能演算法，並開放Spark Mllib；同時支援百度使用者畫像資料，並提供多種應用場景模版。

深度學習平臺具有靈活、高效、可伸縮、開源等特點。它支援多種神經網路結構和優化演算法以及自訂網路配置，對於計算、存儲、架構、通信等多方面多了細緻優化。它支援多核、多GPU、多機環境，其Paddle內部技術已經使用成熟，並實現對全球開發者的開放。深度學習平臺適用於精通深度學習的資料科學家，針對企業或研究部門的特定專案，需要大量的客戶標注資料。

無論是圖像識別，還是更廣域的人工智慧技術都擁有豐富的應用場景，能夠幫助人們從感知升級到認知，支撐著百度的核心業務發展，而百度雲天智等平臺的全面對外開放更是構建生態，通過閉環推動人工智慧行業的整體躍進。

百度看來，智慧時代的核心本質是“ knowledge in every system, intelligencein every interaction”（知識無處不在，任何交互都是智慧的）。這正好與道家“一生二，二生三，三生萬物”的哲學思想不謀而合，開放、生態與交互，將迎來我們期盼的智慧社會和時代。

“天智慧”在各行業中推進AI

百度基礎技術負責人、百度雲聯席總經理劉煬

從圖像識別+到智慧社會