華文網

AI Insight:這一屆 AI 熱能結出幾個好果子?

1974年,AI 陷入第一次寒冬。馬文·明斯基在此前五年發表的《感知機》一書幾乎將神經網路和聯結主義學派斬殺殆盡。英國爵士萊特希爾(Sir James Lighthill)發表的報告稱 AI 研究“目標華而不實”,“只能用來過家家”,“沒有哪一個成果是用別的科學手段做不到的”。DARPA 也幾乎完全停止了對 AI 專案的資助,幾年前還在“愈演愈烈的自吹自擂的狂歡中作繭自縛”的第一代 AI 研究者們,

只好紛紛鋸短他們的鼻子,轉向其他領域去謀生。

這樣的劇情十幾年後重播過一次。1980 年代末和1990 年代初,AI 再次悲劇,整個八十年代紅極一時的“專家系統”,引發無限幻想的 Lisp 電腦、日本五代機和 DARPA 的“戰略計算計畫(Strategic Computing Initiative)”團滅。曾經躊躇滿志的第二代 AI 專家們四散奔逃。

今天 AI 又火了,第三次?還是第四次?取決於你怎麼算。但如果有一個人完整經歷過 1960 年代和 1980 年代的 AI 熱,

他或許會感到今天的一切似曾相識。學術界奮力地發表論文,AI 學術明星獲得萬眾追捧,所有擦邊專業的學生紛紛轉行搞 AI,企業做出一個又一個預測和承諾,媒體連篇累牘報導 AI 的進展,而大眾則睜著一雙雙無辜的大眼睛,好奇而驚恐地注視著他們不理解又不敢不關注的一切。是的,當你看到類似“深度學習將改變一切”的豪言壯語滿天飛的時候,當面臨畢業的大學生連程式設計和基礎數學都懶得學就直接跑去搭 TensorFlow 刷參數的時候,
當就業市場給這種“人才”開出令人咋舌的高薪的時候,我們心裡第一個出現的應該是一個大大的問號:這一屆 AI 熱潮的前方的曲線是什麼形狀的?是一路上揚,還是陡然下墜?

越是這個時候,越要冷靜。

由於在機器學習、深度學習、概率圖模型等領域取得的實實在在的進展,更由於穀歌、亞馬遜、Facebook 和 BAT 們在 AI 技術變現方面取得的商業成就,

我們對於這一屆 AI 的前景比任何時候都樂觀。但回顧歷史,AI 是IT 科技中最容易催生泡沫、誇誇其談、過度承諾、欺世盜名、拉旗扯皮的領域沒有之一。我們必須,基於事實而不是想像來判斷這一輪 AI 可以達成的目標和最有希望的方向。

每一個時代的技術浪潮,有這個時代的條件,有這個時代的使命。第一次 AI 熱潮中,卡耐基梅隆大學的“語音理解研究(Speech Understanding Research)”計畫被 DARPA 評價為一場騙局,

但是這個研究所開發出來的隱瑪律科夫模型等科技,在數十年後成為整個語音辨識技術領域的重要基石,參與其中的研究者都成為一代宗師。當時尚且如此,何況今日?

這一屆 AI 熱肯定能夠結出幾枚好果子,問題是哪些?我們不想走錯路。這裡有科技和產業邏輯,也有時勢命運和造化。時運的部分我們無從把握,但對於科技和產業的邏輯,我們可以稍作判斷。

推動本輪 AI 熱潮的技術和產業因素,不外乎有四:

第一是 AI 技術本身有了長足的進步,這主要是由機器學習、特別是深度學習帶動的。深度學習在圖像識別、語音辨識和自然語言理解領域取得的重大進展是實實在在的,僅僅將這些成果商用化,已足以在多個領域掀起變革。

第二是資料量的積累。機器學習需要足夠多的資料才能訓練出高品質的模型,只有在大資料時代才能夠收集這麼多的資料。

第三是物聯網的發展,可以使得很多對於AI 來說很困難的問題大為簡化,例如用車載攝像頭和AI 精確判斷前車的類型和距離是比較有難度的,但是如果兩部車都以物聯網連接,彼此通訊,這個問題是容易解決的。

第四是社會對於大資料價值和智慧化應用意識的提升,特別是在中國,由於互聯網、電子商務和移動互聯網的爆發,在短時間內給公眾帶來的巨大的心理衝擊,使得整個社會對於相關領域的發展具有特別強烈的風險偏好。

因此,只要某一個 AI 應用領域中“技術——產品——商業”的價值閉環能夠形成,就有機會在這一輪AI 熱潮中迅速崛起。這裡點評一下我比較看好的幾個領域。

自動駕駛車輛和無人機

關於自動駕駛車輛和無人機,我們不太需要去討論它的可能性。今天沒有一家一線汽車企業的抽屜裡沒有自動駕駛汽車的發展規劃,沒有一個有見識的人還在懷疑無人駕駛的可行性。現在的問題是,無人駕駛的巨大的意義和行業價值,以及對於人類生活方式的顛覆能力,尚未被充分認識。

李開複先生曾經評價說,單單無人駕駛汽車這一件事情,就比整個互聯網和移動互聯網加起來還大。這一點我百分之百相信。在我們大部分人的腦子裡,自動駕駛時代的社會跟今天是一樣的,只是汽車駕駛位上的人可以免除駕駛之勞而已。這就把問題想得太簡單了。如果說互聯網在資訊空間裡建立了低成本直接互聯的高速通道,那麼自動駕駛就是在物理空間裡建立了低成本直接互聯的高速通道,並使之與資訊空間融合為一。自動駕駛將徹底的改變我們的出行、服務、採購、娛樂、物流等各個方面的生活方式,甚至會改變人類對於物理世界的理解模型,財產觀念和社會組織模式。比如說,我們未來很有可能將不再有興趣擁有一部汽車,所有出行、服務和物流都能夠以高精度時間來規劃,租車公司和政府可以掌握每一個人的出行資訊,複雜地形的物資運輸可以簡化為螢幕上的一次點擊。我無法想像,這會讓我們的生活發生多大變化,更無法想像有多少企業會在這個過程中生生滅滅,但我相信,如果今天有機會進入無人駕駛行業,將是參與本輪 AI 弄潮的上上簽。

電腦視覺、語音和自然語言處理

將這三個巨大的領域放在一起來談,一是為了節省篇幅,二是因為三者都是在感知層面上解決“懂”的問題的基礎性科技,三是因為這三個領域都是深度學習的主要舞臺。當前,深度學習在圖像分類任務上已經達到96%以上的準確率,在人臉識別方面達到 99.7%,而在語音辨識領域,錯誤率低於 4%,都高於人類平均水準。我們不必去憧憬進一步的發展,只需要將現在實驗室裡的成果工程化、商用化,就已經可以在很多行業裡帶來重大變革了。

但在這個領域公眾的期望過高。普通公眾聽說 AI 在以上三個領域取得突破之後,很自然的就會期望出現能夠識別各種物體,並像人一樣與我們進行自然對話溝通的 AI 出來。據我所知,實現這個級別的 AI 尚待時日。比如說,相當長時間內,可以取代客服人員的對話機器人(chatbot)還無法滿足企業的基本要求。鮑捷先生對此曾判斷,深度學習絕對不是這個領域的“黑科技”。

但是對於這三個領域的應用,我個人想表達一點擔憂。因為我在與他人討論電腦視覺、語音和自然語言處理的時候,很多人第一個想到的應用就是所謂安防監控和輿論分析。這在我們國家是一個特別容易想到也特別容易賣出去的應用,但我認為這類應用對於社會的長遠影響很難說是利大於弊還是弊大於利。某些用戶,他們今天積極地希望部署此類應用,但恐怕他們自己都不一定能夠算得清楚,由此帶來的對個人隱私的侵犯、對個人自由的限制,究竟對用戶自身是好還是壞。我希望這三個領域的從業者主動思考這樣的問題,並且積極的尋找更廣闊的應用空間。

智慧語音助手

Amazon Echo 於 2014年9月發佈,到去年底,總銷量據說達到了500萬台。很奇怪這個產品在中國 AI 人群中討論的並不多,事實上它是這一波 AI 中落地程度最高的產品。

Echo 是一個智慧音箱,它內置了一個名叫 Alexa 的家居語音助手。你只需要喊 Alexa 的名字,用自然語言對它下命令,就可以讓它執行某項“技能(skill)”,如你關窗簾,開電視,買牛奶,調氣溫,等等。目前 Alexa 有500多項技能,很快將發展到3000多項,基本上可以滿足日常家居生活的一切需求。我們也可以非常容易的設想,此類應用解決一些基本問題之後,可以應用於辦公和公共場所。

幾乎可以肯定,這類產品一旦成熟,必會收到瘋狂追捧。然而此類系統天生具有排他性,對隱私又特別敏感,想必有關政府部門會介入監管,切入速度會比較慢。但我非常看好這個領域,它不僅是一個家電設備這麼簡單,而且是整個智慧家居、智慧建築和智慧場所的作業系統。一旦一個智慧助手佔據市場支配地位,所有的家電、設備甚至建安設施都需要與之相容,這塊利益太大了。

推動本輪 AI 熱潮的技術和產業因素,不外乎有四:

第一是 AI 技術本身有了長足的進步,這主要是由機器學習、特別是深度學習帶動的。深度學習在圖像識別、語音辨識和自然語言理解領域取得的重大進展是實實在在的,僅僅將這些成果商用化,已足以在多個領域掀起變革。

第二是資料量的積累。機器學習需要足夠多的資料才能訓練出高品質的模型,只有在大資料時代才能夠收集這麼多的資料。

第三是物聯網的發展,可以使得很多對於AI 來說很困難的問題大為簡化,例如用車載攝像頭和AI 精確判斷前車的類型和距離是比較有難度的,但是如果兩部車都以物聯網連接,彼此通訊,這個問題是容易解決的。

第四是社會對於大資料價值和智慧化應用意識的提升,特別是在中國,由於互聯網、電子商務和移動互聯網的爆發,在短時間內給公眾帶來的巨大的心理衝擊,使得整個社會對於相關領域的發展具有特別強烈的風險偏好。

因此,只要某一個 AI 應用領域中“技術——產品——商業”的價值閉環能夠形成,就有機會在這一輪AI 熱潮中迅速崛起。這裡點評一下我比較看好的幾個領域。

自動駕駛車輛和無人機

關於自動駕駛車輛和無人機,我們不太需要去討論它的可能性。今天沒有一家一線汽車企業的抽屜裡沒有自動駕駛汽車的發展規劃,沒有一個有見識的人還在懷疑無人駕駛的可行性。現在的問題是,無人駕駛的巨大的意義和行業價值,以及對於人類生活方式的顛覆能力,尚未被充分認識。

李開複先生曾經評價說,單單無人駕駛汽車這一件事情,就比整個互聯網和移動互聯網加起來還大。這一點我百分之百相信。在我們大部分人的腦子裡,自動駕駛時代的社會跟今天是一樣的,只是汽車駕駛位上的人可以免除駕駛之勞而已。這就把問題想得太簡單了。如果說互聯網在資訊空間裡建立了低成本直接互聯的高速通道,那麼自動駕駛就是在物理空間裡建立了低成本直接互聯的高速通道,並使之與資訊空間融合為一。自動駕駛將徹底的改變我們的出行、服務、採購、娛樂、物流等各個方面的生活方式,甚至會改變人類對於物理世界的理解模型,財產觀念和社會組織模式。比如說,我們未來很有可能將不再有興趣擁有一部汽車,所有出行、服務和物流都能夠以高精度時間來規劃,租車公司和政府可以掌握每一個人的出行資訊,複雜地形的物資運輸可以簡化為螢幕上的一次點擊。我無法想像,這會讓我們的生活發生多大變化,更無法想像有多少企業會在這個過程中生生滅滅,但我相信,如果今天有機會進入無人駕駛行業,將是參與本輪 AI 弄潮的上上簽。

電腦視覺、語音和自然語言處理

將這三個巨大的領域放在一起來談,一是為了節省篇幅,二是因為三者都是在感知層面上解決“懂”的問題的基礎性科技,三是因為這三個領域都是深度學習的主要舞臺。當前,深度學習在圖像分類任務上已經達到96%以上的準確率,在人臉識別方面達到 99.7%,而在語音辨識領域,錯誤率低於 4%,都高於人類平均水準。我們不必去憧憬進一步的發展,只需要將現在實驗室裡的成果工程化、商用化,就已經可以在很多行業裡帶來重大變革了。

但在這個領域公眾的期望過高。普通公眾聽說 AI 在以上三個領域取得突破之後,很自然的就會期望出現能夠識別各種物體,並像人一樣與我們進行自然對話溝通的 AI 出來。據我所知,實現這個級別的 AI 尚待時日。比如說,相當長時間內,可以取代客服人員的對話機器人(chatbot)還無法滿足企業的基本要求。鮑捷先生對此曾判斷,深度學習絕對不是這個領域的“黑科技”。

但是對於這三個領域的應用,我個人想表達一點擔憂。因為我在與他人討論電腦視覺、語音和自然語言處理的時候,很多人第一個想到的應用就是所謂安防監控和輿論分析。這在我們國家是一個特別容易想到也特別容易賣出去的應用,但我認為這類應用對於社會的長遠影響很難說是利大於弊還是弊大於利。某些用戶,他們今天積極地希望部署此類應用,但恐怕他們自己都不一定能夠算得清楚,由此帶來的對個人隱私的侵犯、對個人自由的限制,究竟對用戶自身是好還是壞。我希望這三個領域的從業者主動思考這樣的問題,並且積極的尋找更廣闊的應用空間。

智慧語音助手

Amazon Echo 於 2014年9月發佈,到去年底,總銷量據說達到了500萬台。很奇怪這個產品在中國 AI 人群中討論的並不多,事實上它是這一波 AI 中落地程度最高的產品。

Echo 是一個智慧音箱,它內置了一個名叫 Alexa 的家居語音助手。你只需要喊 Alexa 的名字,用自然語言對它下命令,就可以讓它執行某項“技能(skill)”,如你關窗簾,開電視,買牛奶,調氣溫,等等。目前 Alexa 有500多項技能,很快將發展到3000多項,基本上可以滿足日常家居生活的一切需求。我們也可以非常容易的設想,此類應用解決一些基本問題之後,可以應用於辦公和公共場所。

幾乎可以肯定,這類產品一旦成熟,必會收到瘋狂追捧。然而此類系統天生具有排他性,對隱私又特別敏感,想必有關政府部門會介入監管,切入速度會比較慢。但我非常看好這個領域,它不僅是一個家電設備這麼簡單,而且是整個智慧家居、智慧建築和智慧場所的作業系統。一旦一個智慧助手佔據市場支配地位,所有的家電、設備甚至建安設施都需要與之相容,這塊利益太大了。