摘要: 人工智慧暫時擺脫了聚光燈的關注, 也讓我們有更多的理性去看待這個過去幾年被譽為「改變人類命運」的技術, 到底是一次面向遠方偉大征程的開始, 還是又一次從寒冬到盛夏再到寒冬的短暫更替。
經歷了 2016 、2017 上半年的瘋狂炒作之後, 人工智慧的熱潮正在褪去。
究其原因, 如果按照 Gartner 的「炒作曲線」來解釋, 則是由於新技術爆發時的公眾熱度更容易被媒體、資本所捕捉, 而隨著技術落地過程中暴露出的一系列實際困難, 會部分程度上導致公眾的悲觀, 從而讓這項新技術逐步淡出公眾視野。
人工智慧也是如此。 在過去的 2017 年, 圍繞人工智慧的場景應用正在成為國內外巨頭、創業新貴押注的焦點, 然而不管是圖像、語音還是自然語言交互, 儘管單項技術都不同程度地獲得巨大發展, 但尚不足以與實際場景結合, 形成全新的傳播熱點, 一個顯著的案例,
另一個原因, 則是更多新技術、新概念的出現, 這在中國的表現尤為明顯。 2017 下半年, 特別是 2017 年年底, 區塊鏈成為中國互聯網行業的「新技術」, 這種由虛擬貨幣所推動的技術幾乎「瞬間」佔據了投資人、主流科技媒體、各種自媒體的討論議題裡。
上述兩個原因或多或少讓人工智慧暫時擺脫了聚光燈的關注, 也讓我們有更多的理性去看待這個過去幾年被譽為「改變人類命運」的技術, 到底是一次面向遠方偉大征程的開始, 還是又一次從寒冬到盛夏再到寒冬的短暫更替。
人工智慧的遠方依然令人嚮往
事實上, 關於人工智慧的「遠方風景」已經被重複了六十多年。
作為達特茅斯會議組織者之一的約翰·麥卡錫, 一直認為「人工智慧」一詞除了是暗示機器可以去完成人類可以完成的工作之外, 和人類行為毫無關係。
而與麥卡錫專注數學邏輯類比人類大腦的做法不同, 另一位達特茅斯的參會者馬文·明斯基則早早看到了神經網路的重要性, 但頗具諷刺意味的是, 也正是明斯基在某種程度上否認了神經網路的可行性, 導致基於人工神經網路的研究長期排除在人工智慧「主流」研究之外。
而就在麥卡錫離開 MIT, 扛起斯坦福大學人工智慧研究大旗之時,
這位北歐人的後裔並沒有麥卡錫的「遠大志向」, 而是在思考如何將技術去「提升」人類現有的技能, 他終其一生都在研究電腦技術至於人類的意義, 成為人機交互的「一代宗師」。
在矽谷資深記者約翰·瑪律科夫的《與機器人共舞》中, 記錄了麥卡錫的「人工智慧」與恩格爾巴特的「增強智能」之間的恩怨情仇, 「在已經過去的50年中, 麥卡錫和恩格爾巴特的理論仍然各自為政, 他們最為核心的衝突仍然懸而未決。 一種方法要用日益強大的電腦硬體和軟體組合取代人類;另一種方法則要使用相同的工具, 在腦力、經濟、社會等方面拓展人類的能力。
如今, 這兩種理念在全世界範圍內依然有不少支持者。 伊隆·馬斯克與馬克·紮卡伯格口水戰, 霍金的末日預言與凱文·凱利的批判一度成為 2017 年各大科技媒體爭先報導的消息, 但這一切討論卻排除了這個領域最有發言權的一線研究者, 無論是 Facebook 人工智慧實驗室負責人 Yan Lecun 還是深度神經網路「教父」般的 Hinton, 其冷靜而客觀的分析, 都無法進入大眾視野。
另一方面, 掌握巨大傳播資源的巨頭公司則在塑造一個被技術賦能的美好未來。
過去的兩年, 亞馬遜、Google、阿裡巴巴等讓人工智慧走入越來越多的家庭, 通過語音交互的智慧音箱, 語音辨識、自然語言處理等技術逐步落地, 還讓越來越多的用戶感受到人工智慧的威力;百度、英特爾、Google 還在不斷向公眾傳達自動駕駛的美好未來, 那些製作精良又充滿未來感的視頻不斷刷新著公眾對於駕駛的所有想像力;一場場科技峰會/發佈會上,人工智慧正在進入不同行業,它可以讓你的手機拍照更好看,它可能是醫院醫生的助手,它也可以在工廠裡為提升產能貢獻自己的能力,還會扮演著城市公共安全保衛者的角色......
就這樣,這兩年內,公眾在「人工智慧如何幫xxx」的話術中開啟新的一天,又在「人工智慧將徹底顛覆XXX」的描述中入睡,每隔若干個小時,就有一個新行業被人工智慧所改變,每隔若干天,就有一家人工智慧創業公司拿了上億美金的融資,每隔若干月,「自動駕駛即將上路」、「虛擬女朋友」的消息再重複一次。
然而,這一切事關遠方的描述,無論是馬斯克的人類末日場景還是紮克伯格的烏托邦世界,都跳過了這個行業如今的「苟且」。
當下的苟且:軟體、硬體與應用
坦率來說,上文中所有關於「人工智慧」進步的說法,都應該換成「深度神經網路」,或者換句話說,過去幾年所謂人工智慧的進步,都來自深度神經網路的快速發展。
然而,儘管幾乎全世界的電腦/互聯網巨頭都投入到神經網路的研究之中,卻依然在處在一個非常初級的階段,包括以下三個方面:
軟體層面:被人寄予厚望的強化學習也難有突破;
硬體層面:群雄逐鹿;
應用層面:圖像、語音之外還剩下什麼?
先說軟體層面。作為 2017 年《MIT 商業評論》評選的年度十大技術,強化學習曾在 AlphaGo 擊敗各路圍棋高手的對弈中發揮了重要作用。強化學習的基本原理,是一種和環境交互過程的「學習」過程,這種動態的學習過程非常適合在一些沒有特定規則、即時回饋的場景中,比如工業機器人或自動駕駛。
這是一種令人聽起來就激動的機器學習模型,這幾乎也是人類學習周遭事物的方式。以駕駛為例,人類司機需要結合路況來實施調整自己的駕駛行為,當下自動駕駛系統中,感知系統可以被深度學習解決,而決策系統和控制系統,則很有可能是強化學習所能發揮作用的領域。
但當下除了 AlphaGo 利用自動對弈進行強化學習之外,其他實際應用並不現實,原因就在於,當這一演算法面臨現實社會數百個乃至幾千個環境變數的挑戰時,這種交互過程能否從始至終地保持絕對可控還無法保證,因此,短期內,這個演算法還無法真正實現應用。
其次,在硬體領域,針對深度神經網路的競爭日益白熱化。英偉達、英特爾、寒武紀、Google、華為、ARM、阿裡巴巴 等公司正在緊鑼密鼓地推出各種硬體產品——用於訓練和運行深度神經網路的高性能、可定制的處理器。
英偉達股價兩年內翻了 6 倍,英特爾不惜重金收購的 Nervana、Altera,其目的都是要在這個領域快速成為標準和規則的制定者。但圍繞硬體發展路線以及創業路徑,依然有諸多不確定性,比如,GPU、FPGA 以及 TPU 還無法有明確的優劣好壞之分,再比如,近兩年的量子電腦,又會給機器學習、深度學習帶來怎樣的變化?
事實上,和其他所有計算行業一樣,深度神經網路硬體的最終勝者,一定是那些能提供低價同時強大計算能力、並且能讓絕大多數開發者/研究者快速上手的產品,但在 2018 年的現在,我們還看不到。
第三,則是深度神經網路技術落地的關鍵環節:應用。過去幾年,圍繞人工智慧落地的應用實例時,無外乎有兩大領域:
圍繞圖像/視頻的處理,從識別到後期處理,最直接的案例,手機相機的美顏功能;
基於語音的虛擬/實體產品,從手機虛擬助理到智慧音箱;
上述兩大領域的落地案例在不同行業又有不同的展現形式。在消費端,2017 年華為、蘋果都在其新一代旗艦手機中加入 NPU(神經網路處理單元),就是圍繞神經網路在處理圖像上的能力,用一個單獨的處理單元讓手機完成大量拍照、圖片的處理工作;國內 2017 年出現了一股智慧音箱熱,其背後的技術驅動力則是語音辨識、語義理解、自然語言理解等技術的整合;而在企業端,從 AWS、Google Cloud 到阿裡雲,雲服務商正在將圖像/視頻的處理能力打包為 API,供開發者和企業調用;垂直領域,基於圖像/視頻技術,讓國內安防行業迎來一個史無前例的春天;也是基於圖像/視頻技術,醫療影像的變革正徐徐而來......
然而當我們試圖尋找上述單點技術之外的落地實例時,卻會失望地發現這可能就是故事的全部。畢竟,語音、圖像/視頻與文本,構成了互聯網上的所有內容,整個互聯網行業努力的方向,都是要讓這些內容最終變成結構化的資料,實現更高效的分析和再利用。
然而,這一切需求的誕生,與其說是一種「增強智慧」——技術賦能行業,倒不如說是,這是一種更實際、更功利的選擇,讓深度學習去解決最有可能解決的問題,並包裝為人工智慧的福祉,其落腳點還是互聯網公司最擅長的領域:數據。
「資料就是石油」,這是最近兩年內經常聽到一種說法,2017 年一期《經濟學人》文章裡,有一張圖表說明了諸多問題:
右圖是公司財報會議上對於人工智慧的關注程度,從 2014 年開始就是極度陡峭的增長線,而與之對應的左圖裡,IDC 製造的「digital universe」指代的是每年資料生產和複製的數量,其增速也是指數級的。
這至少說明了兩個問題:其一,人工智慧的確是當下最熱的命題之一;其二,人工智慧的再次回歸,是海量資料帶來的最直接反應,這也就不難理解,為何當下所有標榜「人工智慧」的應用,幾乎都是資料密集領域的產物了。
寫在最後,超越不可能
如果以「遠方」的標準來衡量當下的「苟且」,深度神經網路遠非人工智慧的未來。在一個媒體效應遠大於實際效應的當下,公眾往往會將深度學習、機器學習、人工智慧混為一談;又或者,誤以為 AlphaGo 就是深度學習的產物。
我們還在期待更好的演算法,從根本上解決「黑盒子」難題,從而可以讓機器決策過程變得更透明,這在當下尤為重要。Google 面臨歐盟反壟斷調查時的首要問題是:為什麼這個搜索結果要排在另一個結果之前?再比如,當越來越多標榜將深度學習應用到金融領域的場景裡,當用戶的貸款請求被深度學習演算法所駁回時,能否解釋這其中的理由到底是什麼?
我們也同樣需要一個沒有偏見的演算法。 2017 年,IBM Watson 在被引入美國法院審判時也出現諸多爭議,由於過往資料顯示黑人犯罪比例高,導致 Watson 在決策時常常像人類法官一樣做出帶有偏見性的決策。而在一個男權之上的社會,大量公司高管都是男性,此時倘若引入深度學習作為招聘工具,則很有可能招來更多男性。
這種根深蒂固的偏見幾乎普遍存在於所有的機器學習演算法中,但很顯然,深度學習最難測試與調整,同時又由於其廣泛的應用場景變得更加引人矚目,微軟幾次三番上線在 Twitter 上線聊天機器人,又幾次三番地下架,其原因就是當一個深度學習應用程式面臨真實社會場景時,其所做作為已經超出了應用開發者的控制,甚至都無法讓其「浪子回頭」,唯一的做法就是下架。
你當然可以說這不是演算法的問題,而是社會環境的自然映射,可問題的關鍵在於,圍繞人工智慧,甚至圍繞機器學習,還有大量的選擇餘地,深度學習不應該、也沒有這麼大能力承擔如此重大的任務,在人類邁向智慧社會的偉大征程之中,我們理應有更好的工具。
那些製作精良又充滿未來感的視頻不斷刷新著公眾對於駕駛的所有想像力;一場場科技峰會/發佈會上,人工智慧正在進入不同行業,它可以讓你的手機拍照更好看,它可能是醫院醫生的助手,它也可以在工廠裡為提升產能貢獻自己的能力,還會扮演著城市公共安全保衛者的角色......就這樣,這兩年內,公眾在「人工智慧如何幫xxx」的話術中開啟新的一天,又在「人工智慧將徹底顛覆XXX」的描述中入睡,每隔若干個小時,就有一個新行業被人工智慧所改變,每隔若干天,就有一家人工智慧創業公司拿了上億美金的融資,每隔若干月,「自動駕駛即將上路」、「虛擬女朋友」的消息再重複一次。
然而,這一切事關遠方的描述,無論是馬斯克的人類末日場景還是紮克伯格的烏托邦世界,都跳過了這個行業如今的「苟且」。
當下的苟且:軟體、硬體與應用
坦率來說,上文中所有關於「人工智慧」進步的說法,都應該換成「深度神經網路」,或者換句話說,過去幾年所謂人工智慧的進步,都來自深度神經網路的快速發展。
然而,儘管幾乎全世界的電腦/互聯網巨頭都投入到神經網路的研究之中,卻依然在處在一個非常初級的階段,包括以下三個方面:
軟體層面:被人寄予厚望的強化學習也難有突破;
硬體層面:群雄逐鹿;
應用層面:圖像、語音之外還剩下什麼?
先說軟體層面。作為 2017 年《MIT 商業評論》評選的年度十大技術,強化學習曾在 AlphaGo 擊敗各路圍棋高手的對弈中發揮了重要作用。強化學習的基本原理,是一種和環境交互過程的「學習」過程,這種動態的學習過程非常適合在一些沒有特定規則、即時回饋的場景中,比如工業機器人或自動駕駛。
這是一種令人聽起來就激動的機器學習模型,這幾乎也是人類學習周遭事物的方式。以駕駛為例,人類司機需要結合路況來實施調整自己的駕駛行為,當下自動駕駛系統中,感知系統可以被深度學習解決,而決策系統和控制系統,則很有可能是強化學習所能發揮作用的領域。
但當下除了 AlphaGo 利用自動對弈進行強化學習之外,其他實際應用並不現實,原因就在於,當這一演算法面臨現實社會數百個乃至幾千個環境變數的挑戰時,這種交互過程能否從始至終地保持絕對可控還無法保證,因此,短期內,這個演算法還無法真正實現應用。
其次,在硬體領域,針對深度神經網路的競爭日益白熱化。英偉達、英特爾、寒武紀、Google、華為、ARM、阿裡巴巴 等公司正在緊鑼密鼓地推出各種硬體產品——用於訓練和運行深度神經網路的高性能、可定制的處理器。
英偉達股價兩年內翻了 6 倍,英特爾不惜重金收購的 Nervana、Altera,其目的都是要在這個領域快速成為標準和規則的制定者。但圍繞硬體發展路線以及創業路徑,依然有諸多不確定性,比如,GPU、FPGA 以及 TPU 還無法有明確的優劣好壞之分,再比如,近兩年的量子電腦,又會給機器學習、深度學習帶來怎樣的變化?
事實上,和其他所有計算行業一樣,深度神經網路硬體的最終勝者,一定是那些能提供低價同時強大計算能力、並且能讓絕大多數開發者/研究者快速上手的產品,但在 2018 年的現在,我們還看不到。
第三,則是深度神經網路技術落地的關鍵環節:應用。過去幾年,圍繞人工智慧落地的應用實例時,無外乎有兩大領域:
圍繞圖像/視頻的處理,從識別到後期處理,最直接的案例,手機相機的美顏功能;
基於語音的虛擬/實體產品,從手機虛擬助理到智慧音箱;
上述兩大領域的落地案例在不同行業又有不同的展現形式。在消費端,2017 年華為、蘋果都在其新一代旗艦手機中加入 NPU(神經網路處理單元),就是圍繞神經網路在處理圖像上的能力,用一個單獨的處理單元讓手機完成大量拍照、圖片的處理工作;國內 2017 年出現了一股智慧音箱熱,其背後的技術驅動力則是語音辨識、語義理解、自然語言理解等技術的整合;而在企業端,從 AWS、Google Cloud 到阿裡雲,雲服務商正在將圖像/視頻的處理能力打包為 API,供開發者和企業調用;垂直領域,基於圖像/視頻技術,讓國內安防行業迎來一個史無前例的春天;也是基於圖像/視頻技術,醫療影像的變革正徐徐而來......
然而當我們試圖尋找上述單點技術之外的落地實例時,卻會失望地發現這可能就是故事的全部。畢竟,語音、圖像/視頻與文本,構成了互聯網上的所有內容,整個互聯網行業努力的方向,都是要讓這些內容最終變成結構化的資料,實現更高效的分析和再利用。
然而,這一切需求的誕生,與其說是一種「增強智慧」——技術賦能行業,倒不如說是,這是一種更實際、更功利的選擇,讓深度學習去解決最有可能解決的問題,並包裝為人工智慧的福祉,其落腳點還是互聯網公司最擅長的領域:數據。
「資料就是石油」,這是最近兩年內經常聽到一種說法,2017 年一期《經濟學人》文章裡,有一張圖表說明了諸多問題:
右圖是公司財報會議上對於人工智慧的關注程度,從 2014 年開始就是極度陡峭的增長線,而與之對應的左圖裡,IDC 製造的「digital universe」指代的是每年資料生產和複製的數量,其增速也是指數級的。
這至少說明了兩個問題:其一,人工智慧的確是當下最熱的命題之一;其二,人工智慧的再次回歸,是海量資料帶來的最直接反應,這也就不難理解,為何當下所有標榜「人工智慧」的應用,幾乎都是資料密集領域的產物了。
寫在最後,超越不可能
如果以「遠方」的標準來衡量當下的「苟且」,深度神經網路遠非人工智慧的未來。在一個媒體效應遠大於實際效應的當下,公眾往往會將深度學習、機器學習、人工智慧混為一談;又或者,誤以為 AlphaGo 就是深度學習的產物。
我們還在期待更好的演算法,從根本上解決「黑盒子」難題,從而可以讓機器決策過程變得更透明,這在當下尤為重要。Google 面臨歐盟反壟斷調查時的首要問題是:為什麼這個搜索結果要排在另一個結果之前?再比如,當越來越多標榜將深度學習應用到金融領域的場景裡,當用戶的貸款請求被深度學習演算法所駁回時,能否解釋這其中的理由到底是什麼?
我們也同樣需要一個沒有偏見的演算法。 2017 年,IBM Watson 在被引入美國法院審判時也出現諸多爭議,由於過往資料顯示黑人犯罪比例高,導致 Watson 在決策時常常像人類法官一樣做出帶有偏見性的決策。而在一個男權之上的社會,大量公司高管都是男性,此時倘若引入深度學習作為招聘工具,則很有可能招來更多男性。
這種根深蒂固的偏見幾乎普遍存在於所有的機器學習演算法中,但很顯然,深度學習最難測試與調整,同時又由於其廣泛的應用場景變得更加引人矚目,微軟幾次三番上線在 Twitter 上線聊天機器人,又幾次三番地下架,其原因就是當一個深度學習應用程式面臨真實社會場景時,其所做作為已經超出了應用開發者的控制,甚至都無法讓其「浪子回頭」,唯一的做法就是下架。
你當然可以說這不是演算法的問題,而是社會環境的自然映射,可問題的關鍵在於,圍繞人工智慧,甚至圍繞機器學習,還有大量的選擇餘地,深度學習不應該、也沒有這麼大能力承擔如此重大的任務,在人類邁向智慧社會的偉大征程之中,我們理應有更好的工具。