從貓說起——深度學習的過去、現在和未來

一、過去：從貓到狗

翻閱1982年第1期的《世界科學》雜誌，看到這樣一則消息：“1981年10月17日，在瑞典的斯德哥摩爾城舉行的諾貝爾獎授獎大會上，美國加州理工學院的羅傑•握爾考特•斯佩里(Roger Wolcott Sperry)博士和加拿大出生的美國人大衛•哈貝爾教授以及瑞典的托爾斯滕•韋塞爾分享了1981年諾貝爾生理學、醫學獎。斯佩里因證明大腦兩半球的高度專門化以及許多較高級的功能集中在右半球而獲獎；哈貝爾和韋塞爾因研究視覺系統的資訊處理方面有所發現而獲獎。 ”

哈貝爾和韋塞爾的獲獎要歸功於“貓星人”，據說這個研究從1958年開始，

在貓的後腦頭骨上，開了一個小洞，向洞裡插入電極，測量神經元的活躍程度，從而發現了一種神經元細胞——“方向選擇性細胞”，即後腦皮層的不同視覺神經元與瞳孔所受刺激之間確實存在某種對應關係。這一重要發現，啟動了一度沉寂的神經網路的研究。但是，人們不得不面對這樣的現實：神經網路相關運算中耗費的運算量與神經元數目的平方成正比。基於硬體基礎，那個時候人們普遍認為潛在的龐大的計算量是幾乎無法實現的。

計算能力成了攔路虎，人們探尋真理的腳步一刻沒有停歇。同樣是1981年， IBM PC機中首次應用了8088晶片，開創了全新的微機時代。 1985年INTEL推出了32位元微處理器，而且製造工藝也有了很大的進步。

許多人對286、386、486機器還存有記憶，人類的計算能力伴隨著摩爾定律在大踏步前進。關於神經網路的演算法也有了新的突破， 1986年Hinton和David Rumelhard聯合在國際權威雜誌《自然》上提出在神經網路模型上運用反向傳播演算法，大大降低了原來預計的運算量。 20世紀80年代末到90年代初，共用記憶體方式的大規模平行電腦又獲得了新的發展。 1993年， Cray公司研製成功了第一台具有標誌性的大規模平行電腦。我國的銀河系列平行電腦，在國際上也獨樹一幟。新世紀以來，大規模平行電腦蓬勃發展，逐漸成為國際上高性能電腦的主流。

伴隨著計算處理能力的提升，深度學習有了較快的發展，從結構上分為生成型深度結構、判別型深度結構、混合型深度結構三類。

1989年，加拿大多倫多大學教授Yann LeCun就和他的同事提出了卷積神經網路，是一種包含卷積層的深度神經網路模型，較早嘗試深度學習對圖像的處理。 2012年， Hinton構建深度神經網路，在圖像識別問題上取得質的提升和突破。百度公司將相關最新技術成功應用到人臉識別和自然圖像識別問題，並推出相應的產品。同樣是從2012年，人們逐漸熟悉Google Brain團隊。 2015年至2017年初，一隻“狗”引起世界的關注，人類圍棋大師們陷入沉思。

二、現在：深度學習有多深

回答這個問題之前，讓我們回顧一下機器學習。以使用決策樹、推導邏輯規劃、聚類、貝葉斯網路等傳統演算法對結構化的資料進行分析為基礎，對真實世界中的事件作出決策和預測，通常被稱為機器學習。

比如無人駕駛汽車識別交通標誌，這種機器視覺就是典型的機器學習。但是在特定的天氣條件下，演算法不靈，機器學習就有了局限。

深度學習在機器學習的基礎上又前進了一步，同樣是從資料中提取知識來解決和分析問題，深度學習使用的是人工神經網路演算法，允許發現中間表示來擴展標準機器學習，這些中間表示能夠解決更複雜的問題，並且以更高的精度、更少的觀察和更不麻煩的手動調諧，潛在地解決其它問題。最常見的深度學習類型是前饋深層神經網路（DNN），其使用大量的互連處理單元層從原始輸入資料中“發現”適當的中間呈現。 DNN提供了一個強大的框架，可應用於各種業務問題。

例如可以分析視網膜掃描以“辨識”哪些模式指示健康或患病視網膜（並指示特定疾病）。 “辨識”過程依賴于強力的高性能計算。

根據Gartner的相關資料，深度學習已經在圖像識別、機器翻譯、語音辨識、欺詐檢測、產品推薦等方面得到應用，如下表1、2：

表1：深度學習當前部分相關領域及案例

表2 深度學習當前的能力範圍

Gartner估計，從初創公司到技術巨頭，全球有2,000多家供應商正在推出深度學習相關產品。但是，當前的深度學習有其一定的局限：

1、深度學習技術是啟發式的。深度學習是否會解決一個給定的問題是不清楚的，根本沒有數學理論可以表明一個“足夠好”的深度學習解決方案是否存在。該技術是啟發式的，工作即代表有效。

2、深度學習技術的不可預期性。深度學習涉及隱藏層，在許多情況下，即使是領先的科學家也不能解釋這些層面發生了什麼，這樣的“黑盒子” 可能對解釋甚至接受結果造成問題，有時甚至破壞合規性和道德性。

3、深度學習系統化運用不成熟。沒有適合所有行業且通用的深度學習，企業想要創建自己的解決方案，目前必須混合和匹配可用的工具，並跟上新軟體的快速出現。

4、部分錯誤的結果造成不良影響。深度學習目前不能以100％的精度解決問題。深度學習延續了較淺層機器學習的大多數風險和陷阱。

5、學習速度不盡如人意。一個兩歲的孩子可以在被告知幾次後識別大象，而深度學習系統可能需要成千上萬的例子，並且“看”這些例子數十萬或數百萬次，才能成功。

6、當前的範圍比較狹窄。比如，AlphaGo系統學會了在大師水平線上玩Go，也只會玩Go。應用於任何其他遊戲（甚至更簡單）時，系統將徹底失敗。

三、未來：從GPU到?PU

深度學習是人工智慧發展的主要驅動力。目前主要是在弱人工智慧的發展中產生重要作用，主要是特定的行業應用，如上文提到的圖像識別、自動駕駛和機器翻譯等。但是要支撐和實現和人腦類似的強人工智慧，OSTP（美國白宮科技政策辦公室）認為至少在幾十年內無法實現。除了上文提及的資料不足、相關演算法需要改進外，對高性能計算的追求就是一個長期的持續的根本任務。

GPU這個概念在當前的“讀圖時代”，很多人並不陌生。GPU是相對於CPU的一個概念，由於在現代的電腦中（特別是家用系統，遊戲的發燒友）圖形的處理變得越來越重要，需要一個專門的圖形的核心處理器，這就是GPU。GPU對於深度學習技術非常重要。隨著技術的演進，核心處理器也將更新反覆運算。例如，穀歌大腦團隊正在設計TPU（深度學習晶片），這是針對深度神經網路運算的改進版的處理器。

量子計算至少在未來十年內不會影響深度學習。谷歌大腦團隊的科學家Jeff Dean認為，人的大腦不是量子電腦，量子計算幾乎不會對深度學習造成特別明顯的影響，特別是在中短期內（比如未來十年）。但是，未來的未來，量子計算是不是能根本上改變深度學習，這誰也說不準。

參考文獻：

1、Alexander Linden, Tom Austin, Svetlana Sicular，Innovation Insight for Deep Learning，Gartner:Published: 24 January 2017 ID: G00319191

2、Google Brain團隊親述：改變世界的技術與願景（http://mt.sohu.com/20160812/n463988265.shtml）

3、關於深度學習，看這一篇就夠了（http://mt.sohu.com/20161022/n471044561.shtml）

作者為上海市科學學研究所產業創新研究室副研究員。文章觀點不代表主辦機構立場。

深度學習涉及隱藏層，在許多情況下，即使是領先的科學家也不能解釋這些層面發生了什麼，這樣的“黑盒子” 可能對解釋甚至接受結果造成問題，有時甚至破壞合規性和道德性。