您的位置:首頁>科技>正文

勘誤與科普:如何在飛鳥的背後,捕捉到飛行|張崢談人工智慧

編者按

當下人工智慧的科普遠不盡如人意, 充斥朋友圈乃至各大媒體的報導離實在的人工智慧面貌“漸行漸遠”, 而公眾也時有困惑,

莫衷一是。 不少人工智慧專家也頗有同感。 為此, 《知識份子》特邀請上海紐約大學張崢教授撰文“勘誤”AI, 他欣然應允。 不成想, 竟收到八千字長文, 可謂暢快淋漓。 勘誤AI, 談何容易。 張教授謙稱, 不過抛磚引玉之作, 亟待同仁“反勘誤”!若果真如此, 唇槍舌劍, 思想碰撞, 乃讀者之幸!

撰文|張張崢(上海紐約大學終身教授、國家千人計畫特聘專家)

責編|邸利會

知識份子為更好的智趣生活 ID:The-Intellectual

● ● ●

未來論壇在上海紐約大學舉辦的一次講座之後, 嘉賓互動環節有這麼一個問題:“人工智慧最大的應用場景在哪?”我半開玩笑地回答:“在飯局上”。

人工智慧是IT公司蜂擁爭搶的標籤, 也是媒體和大眾的熱點議題。 這不是壞事, 但並不是說不需勘誤。

比如這樣的說法:

“ 人類的發明史上, 從來都是應用需求領先, 從來都不是技術領先。 比如, 人們想要飛, 才有了飛機並不斷改善;人們希望計算更快, 才有了CPU。 好像, 人們並沒有迫切需要AI。 ”

以上句子, 摘自曾刷爆朋友圈一篇文章——“現在說自己在做AI的都是忽悠!”

這讓我想起幾周前參加上海科技館一個面向中學生的科普活動時, 給同學們留下的一句寄語:“以好奇之心, 求無用之學。 ”因為在我看來, 學界的AI研究動力, 有一大半是(暫時的)無用之求。

科學和技術的原生力之一, 是打造和使用工具。 一部短短的文明史, 也是人類不停發明和使用工具的歷史。 但是, 革命性的工具不但落地時刻模糊, 還要受到已有工具的阻擊。 上述文章裡提到的積體電路晶片(IC)就是如此。

電子管被電晶體替代, 電晶體被IC替代, 是從圖靈開始之後硬體上的兩大革命, 但後者遇到了還在傳統工藝裡打滾的巨頭們的頑強抵抗, 直到美國航天局用IC實現阿波羅登月艙裡的電腦配設。 我個人認為, 這是電腦史上最昂貴也最值得的原型展示(Demo):沒有登月這種“無用之舉”, 連矽谷都不會存在。

關於“無用之有用”, 從浙江大學王立銘教授那裡, 我還偷來三個精彩的反詰案例:“新生的嬰兒有什麼用?”(法拉第語);“這個研究不會有益於國防, 但是會讓這個國家更值得保衛”(費米實驗室主任威爾蓀語, 於國會聽證會);“(找希格斯)沒用, 但是我們就是想知道答案;而且我還知道你們其實也想知道答案, 只不過你們自己沒有意識到”(強子加速器科學家語,

于國會聽證會)。

科學和技術更重要的原生力, 在於好奇心的驅使。

康得說最大的謎團, 除了星空, 就是我們自己的心智。 要瞭解人自己, 還有比再造一個“人”更直接的辦法嗎?在人工智慧上走得遠的研究者, 不但應該廣泛涉獵貼近人心的幾個旁支, 如心理學、行為學、神經科學, 而在某種意義上更應是披著科學家外衣的哲學家。

就像萊特兄弟向鳥學習、引領人類飛行史一樣, 對人腦這個“老師”, 人工智慧也逐漸從“形似”過渡到“神似”, 只不過萬里長征才剛剛開始。 人腦和AI的關係, 是展開本文的一條線索。

既然已提及晶片, 那我們就從硬體開始談起。

人工智慧晶片的發展簡史

既然人腦是由海量的神經元連結而成,

那麼智慧晶片採用同樣的結構似乎天經地義, 這是IBM TrueNorth晶片的出發點。 而且, 實現一個由大量簡單計算加存儲單元組合而成的晶片要遠比英特爾的任何一個晶片容易得多, 這讓苦於摩爾定律遲早撞牆的晶片製造商看到了彎道超車的希望。 另外, 因為神經元互相之間發放連續的脈衝信號, TrueNoth在計算單元之間運用非同步的小資料包來類比。 在對大腦的硬體“形似”上, TrueNorth作為一個代表, 可以說走得相當遠。

然而,這個思路有兩大問題。第一,手握一大堆原子而不明白上層的大結構,不要說復原一個世界,連造個板凳都困難。機翼加上速度取得升力之後,必須要有“迎風而變”的可控性,而這正是萊特兄弟基於對鳥類飛行的大批觀察、在自行車作坊和沙灘上大量實踐之後成功的關鍵。其二,長程的電力運輸中交流電比直流電有效率,這是守舊的愛迪生在芝加哥博覽會的競標中敗給西屋公司的原因。大腦的內環境相當“惡劣”,因為腦容所限,長長短短的連結要在“湯湯水水”中繞來繞去,脈衝信號是合理的選擇。可在晶片上也這麼做,不見得必要。

如果說中科院的寒武紀晶片還有些TrueNorth的影子,那麼穀歌、微軟的AI晶片的架構不但更激進,而且更簡單。

深度學習的模型依賴幾個基本的計算模組(卷積網路、長短程迴圈網路等),但其背後更基本的精神,是高維矩陣的非線性變換,和由這些變換連結起來的資料流程圖。因此,把這個計算框架做好,同時銜接上層的軟體發展環境,是開發AI晶片的兩大重點,而拘泥於大腦的硬體架構只會自縛手腳。穀歌的TPU,存在對TensorFlow(谷歌開發的機器學習軟體工具)過度依賴的問題,卻是AlphaGo烏鎮圍棋一戰中非常亮眼的明星,勘稱廣告史上的經典。TPU不是處理器,沒有指令集,就是一坨高度優化的矩陣運算電路,其核心技術還是上世紀七十年代末的脈動陣列(Systolic array)。

►矩陣相乘單元的脈動資料流程

換句話說,人工智慧在硬體上對大腦的神似,至少從最底層的計算單元來說,已經完成。在此之上,有些基本的、被廣泛應用的計算模組(比如卷積網路和長短程迴圈網路)的設計也受大腦啟發。

相比人腦,人工智慧在模組種類上的積累還缺很多。但更多的困難來自(至少)兩方面:缺乏更好更強大的數學工具,缺乏對腦科學的瞭解,或者部分瞭解了也不知道怎樣“接入”最好。接下來我們就從一些貌似流行的看法說開去,不如先從很遠的一個願景——量子計算開始。

人工智慧需要量子計算?

訓練再複雜的模型,數學上都能歸結為一個非線性的優化過程。這決定了深度網路和其錯誤回傳、梯度下降的訓練方法不過是其中的一個不錯的、但絕不唯一的一個可能性。因此,不管白貓黑貓,能夠優化就是好貓,任何數學工具都能用,都應該嘗試,包括量子計算。

模型的學習過程的本質是非線性優化,對這一點,學界沒有異議,但對其計算過程要和大腦有多“形似”卻一直爭論不休。

反向傳遞方法的發明人之一Geoffrey Hinton教授有個多年的心病,就是在對大腦的研究中尚未發現類似機制,應和者中不乏其他大佬,包括蒙特利爾的Yoshua Bengio,麻省理工的Tomaso Poggio等。但業界其他人,包括人工智慧研究的“三駕馬車”(Geoffrey Hinton,Yoshua Bengio以及Yann LeCun)中的第三位——紐約大學的Yann LeCun就覺得,反向傳遞更優美,是數學神器給我們的禮物。他對優化過程是否和大腦“形似”不太關心。

我持拿來主義的態度:優化就是優化,優化就是神似,過程形似沒有必要。不過我認為,整個模型採用深度網路是必要的,使得模型和腦科學的實驗比照存在可能性。從長遠看,這麼做會給腦科學提供另一種實驗手段,反過來也會進一步促進人工智慧的“神似”之旅。

對腦科學的瞭解,也能讓我們判斷這樣的理由是不成立的:有一派人認為,大腦的工作機理就是量子計算,所以要量子計算。

我覺得,人類在一個基本符合牛頓定律的物理世界中競爭而生,需要量子計算這麼高端、複雜的計算模式作為基石不太可能,也沒有任何證據。支持者認為,神秘的“第六感”源自量子糾纏,但很多心理學上的實驗表明,所謂“第六感”,不過是因為大腦在下意識中捕捉到很多細微、難以查覺因此無法言說的信號而已。

再讓我們看看眼前的一些人工智慧實例。

人工智慧等於即時翻譯、圖像識別麼?

一直以來,這幾個應用有非常高的出鏡率。目前,這些模型背後的工作原理,是從海量資料裡總結統計規律,完成一個自底向上的深度非線性的映射函數,把標籤Y拍到信號X上。但是,如果我們老老實實叫它們的實名——“統計學習”——那是多麼的不酷啊!

這些模型最底層的單元計算,採用卷積網路或者長短程迴圈網路,除此之外,整個大的計算過程和人腦相差很遠,連神似的皮毛都不沾,可這幾個應用的熱炒直接導致了不少的問題和誤解。

人工智慧極度依賴大數據?

“大資料”是個十分混亂的概念。首先,什麼是打造人工智慧需要的大資料?其次,多大才算大?比如,掀起深度網路大熱潮的ImageNet資料集,有一百二十萬張帶標注的圖片。圖片中有哪類物體,在哪,通過互聯網眾籌的人力標定,再喂給模型來學習。一百二十萬張是個什麼概念?相當於一個人每秒一張,一天八個小時,看一整年的圖片量。

這其實並不算多。人活一年,睜眼看世界,攝入的視覺資訊遠比這個要多得多,更不提人活一輩子會看多少。但如果每張都要讓人記住是狗還是貓、是花還是草,不要說一年,我猜任何人連十分鐘都挺不住。

換句話說,人腦消耗的資料量要大得多,但其中刻意去學的又少得多。

除了大腦強大的記憶和泛化能力,至少還有兩個重要的手段,把大部分工作在下意識中自動處理掉了,這才使得昂貴的學習只成為了浮出水面的冰山一角。

第一個手段是,大腦對來自底層感官下一時刻的信號隨時預測,預測準確則過濾掉,只有錯了才進一步處理。不如此,淹沒在各種各樣的雜訊之中的大腦就會“過勞死”。這也是一個人撓自己癢癢不會發笑的原因。我們的日常生活空間尺度足夠大,符合牛頓物理定律,也因此充滿結構,這使得大腦能對周遭世界建立模型,有了模型就能進一步建立預測機制。具有預測功能的大腦也更穩健,能容錯通訊中因為噪音而丟失的資訊。

第二個手段是讓來自不同感官的多路信號互相監督。比如孩童把玩一個玩具,手上拿著的、眼睛看到的、耳朵聽到的,是不同模態的信號,分別在不同的大腦皮層被處理。來自同一個物體這個事實,已經是個很強的監督信號,並不需要額外標注。相反,如果信號之間不自洽,比如看上去很輕的卻拿不動,才會被注意到,並得到進一步處理。

帶自頂向下預測、多模態協同的無監督學習方法,是現在的人工智慧模型所缺失的。

強標注的樣本在整個樣本群中比例越小越好。我的好朋友江鑄久九段說,人類棋手下過的好棋譜大概三萬左右,那麼在學習完這些對局之後,AlphaGo自己下了幾盤呢?保守一點估計,AlphaGo自己對弈大概一秒一盤,每天八萬多盤。按臉譜公司田淵棟博士的推測,穀歌動用了上萬台機器,而AlphaGo專案至今已經兩年多了。所以,AlphaGo發展到今天的圍棋智力,其中有標注的資料只占總數據量的千萬分之一或更少。

因此,人工智慧確實需要更多的資料,但更需要減少其中強標注資料的占比。要達到這個目標,必須對演算法和模型做原創性的改進,更“類腦”,而不是一味採集更多的人臉照片、標注車輛,行人、人聲等等。

人工智慧必然高能耗?

這又是一個似是而非,常用來批評人工智慧的結論。其邏輯是這樣的:大腦功耗約25瓦,一個四卡GPU伺服器超過一千瓦——AlphaGo勝之不武。由此可以推論,類腦必須低功耗,尤其必須在低功耗的類腦晶片上實現。

這裡引出的一個問題是,人腦和AI,在能耗上應該怎麼比更合理?

能耗的分佈在兩個地方,一個是模型的訓練,一個是模型的使用。

訓練模型的確非常耗能。我曾參與創立的深度學習平臺MxNet最近創了個最低記錄,從頭訓練一個高性能圖像分類器ResNet,耗資一百二十萬美元。這筆錢相當於十幾個國家自然基金面上項目,顯然不便宜——但和訓練AlphaGo的能耗比,實在可以忽略不計。

人腦確實只用25瓦能耗,如果必須耗用2500瓦,在自然界的競爭中必然被淘汰掉。但請注意,它不是一夜練成的,而是歷經百萬年的進化到了今天。把時間累積在一起,再加上各種試錯,再加上各種天災造成的重啟和格式化,總能耗就一定低了嗎?

所以,我們更應該關注模型在使用時的能耗。AlphaGo下棋的大致流程和人類棋手相符,但區別在於每一個變化都會一路算到底,而下一步又生出了新的變化。AlphaGo優化了搜索策略,限制了搜索空間,即便如此,千萬步總要走的,而人類頂級棋手平均也就算二三十步。用幾十步抗衡千萬步,已經非常了不起了。但反過來,如果限制AlphaGo的計算步數,能耗下來了,勝率也一定會下跌。

►AlphaGo戰勝李世石,名噪一時

在其他一般性的任務中,人工智慧模型的效率確實非常低,但根源在於演算法和人腦差很多。圖像解析我在下文會討論到,單拿自然語言處理來說,其他不提,成句時挑詞,要把整個詞表掃一遍,而實用的詞表有至少上萬個詞,這顯然極其浪費——人說話的時候,每個時刻的候選詞並不多,這其中的量級之差上千上百。

對AlphaGo的苛求

和人臉識別、即時翻譯等等相比,下圍棋是個陽春白雪的活動。但是,穀歌的AlphaGo絕對是人工智慧發展史上重大的一筆。它包括了智慧思考過程中極為重要的幾個步驟:感知,自省,判斷,演繹,執行。AlphaGo是對大腦智力活動的神似,正因為這樣,才走得遠。

補充一句,AlphaGo演算法中依賴的搜尋樹是模型中的重要組成部分,但並不由深度網路構成——不代表不能這麼做,只是效率不會高。這又是一個不拘泥於形似的例子。

AlphaGo離真正的智慧還遠,但並不是因為以下幾個流行的說法。

流行說法之一,AlphaGo沒有通用性。這麼批評AlphaGo的人忘了,大腦的通用性不在於它是變色龍,而在於它是瑞士軍刀,配備了大批靈活合作的專業腦區。要求下棋的AlphaGo變身通用型人工智慧,是無理的要求。AlphaGo的通用性只針對一類問題,這些問題規則簡單,變化繁多,既有少量專家樣本,又能零成本產生無數新樣本。

人工智慧要達到普適的通用性,需要繼續向人腦取經。比如,如何以最經濟、最靈活為準則,即時實地整合高複用的元件來應對複雜多變的環境?再如,怎麼使得各組件的學習、計算的機制儘量一致,但又不失去專業性?舉例來說,整合自上而下的預測回饋和自底向上的注意力,利用工作記憶組裝在不同時間點獲取的區塊,是各種任務都需要的基本架構。但視覺要解決“是什麼”、“在哪裡”,語言要解決語義、語法,每個任務內含幾個互相纏繞的子問題,所涉及的功能塊和任務緊密相關,無法也沒必要和其他任務的功能塊共用。

對AlphaGo的另外一個批評是,它沒有情感。“AlphaGo可以贏棋,卻不能贏得快感”,我的一個朋友這麼調侃。

不錯,它輸了也皮厚,一點不會不好意思。可所謂至柔則剛,沒有勝負心、心無雜念,這種至高的境界卻是無數棋手苦求而不得的。人的世界完全不一樣,人是感情的動物,多巴胺的奴隸,在人生的舞臺上,太大、太小的壓力都會讓我們演砸了戲,只有適當的壓力才剛剛好。

情感的來源在於對形勢的解讀,情感的作用在於對行動作出調整。再精准的解讀如果沒有用武之地,就沒有多巴胺介入的必要性,而這正是AlphaGo實戰的情況。如果對AlphaGo運行環境做限制,設定耗能的上限,那麼按照對局勢的判斷,它有時候會提高主頻放手一搏,有時候則進入省電模式閉眼瞎蒙。時不時“臉紅耳赤心跳加速”的AlphaGo,是不是有了我們人類的情感呢?

集萬千寵愛於一身的AlphaGo,沒有生存的壓力,“感情”是個多餘的東西。而讓單兵作戰的人工智慧獲取“感受”、改變策略,沒有那麼難。在人機共生的未來,讓人工智慧在這種環境中捕獲和預測人類微妙的情感變化,和人“感同身受”,才是真正需要研究的大問題。

既然說到了人類的情感,相對於人工智慧,讓人“自豪”的另外一個領域是藝術創造,可果真如此麼?

藝術創造是人獨有的,人工智慧不會?

不止一次聽過這種介乎安慰和宣言之間的說法。從這裡出發,引申出的一個推論是,等機器人把髒活累活包了,人類可以安心地享受藝術創造了。

天底下有兩種職業貴在原創:科學研究和藝術創作。這兩方面的素養很重要,但它們作為職業,從古至今,都是處在長尾端、腦子長得不太“正常”的小眾活動。在人機共存的未來,和機器人搶活兒幹倒更可能,也應該搶,必然會搶——藝術創作領域很可能類似。

人工智慧能不能從事藝術創作?一開始的幾年,業界端出來的“作品”是不忍看的。其中一類,讓模型把看過的樣本“吐”出來,計算過程中有意無意的隨機採樣生產出一堆猶如惡夢中的怪物。比如訓練樣本中狗的圖片多,就變成這樣:

這和二十世紀初的達達主義很相似,當年所謂的“自動寫作”就可以視為隨機採樣的過程,產生出來的文字效果上是一樣的。達達主義的貢獻在於矯枉必須過正,很快讓位於超現實主義,曇花一現。

還有一種是照葫蘆畫瓢,更容易讓人接受——只是“手抖”得有技巧,學了梵古的抖法就都成了向日葵、星空,學了蒙克就處處驚叫。

這些都和藝術創作的精髓相去甚遠。攝影如要精進,除了勤按快門,要花同樣多的時間看好照片,花更多的時間去挑照片。把好的藝術品喂給模型不是難事,難的是怎麼“挑”。藝術創作不是胡亂踩點,要緊的是如何判斷,有一度我覺得這後一點是死穴:AlphaGo可以判定局勢的好壞,但應該不懂如何評判藝術吧?

不過,這幾年人工智慧學界的一個現象就是,不要把話說得太死了。

最近很火的一個深度學習分支叫“生成對抗網路”:把亂數推送給一個生成網路,合成偽資料(圖片或聲音),然後再把這些偽資料送進判別網路,判別網路比較真偽資料後,再產生讓生成網路努力“造假”的壓力。

這個框架的最終目的,是以少量樣本充盈分佈空間。兩個網路共生共長、陰陽互補。這雖然和AlphaGo用強化學習左右手互博,是兩種不同的訓練方式,但在精神上都相當辯證。

最近我注意到一項工作(CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms),讓一個模型學習從十五世紀到二十世紀超過七萬張作品,從巴羅克開始涵蓋二十五種風格。這個模型的創新點在於判決網路有意為之的“四不像標準”,要求生成的圖片既要像某種風格,又不能太像。

有人會說,那不過是已有風格的混雜而已,但熟悉藝術史的應該知道,混雜和遷移本身就是風格突破的重要源泉之一。令人驚訝的是,至少在網上“公投”的結果來看,已經是雌雄難辨。

在職業棋手被集體降級之後,藝術家會不會是下一個被碾壓的群體?

我個人不是很關心這個問題。烏鎮圍棋大戰之後我的總結是,圍棋永遠是人類腦力健身房中的寶貝,只是棋手的健身房中多了一個AlphaGo。藝術的“下場”也一樣。該下棋下棋,該畫畫就畫畫。只是,不要再說機器不會藝術創造了。

藝術的美學標準,藝術家的“手抖”規律,AI作為神偷,已經化作自己的創造力。我認為(也十分期待)的下一個引爆點,是對藝術聯覺的運用。簡單的說,聯覺是缺乏某類感官刺激,但被他類刺激引發的感知經驗,就像納博科夫在字母中“看”到、李斯特在音符中“聽”到的顏色。

再比如詩歌,其充滿張力的想像裹挾了視、聽、樂感,是詩人對聯覺的有意無意的挖掘,也是讀詩的快感之一。不具備聯覺功能的AI詩歌創作,在技巧上經不起推敲。我讀過微軟小冰的“詩作”,如果認為其想像力的背後有聯覺的作用,也是我們讀者自己在腦補。至於一些詩人的批評,因為對人工智慧缺乏瞭解,也就沒說到點上。

聯覺的技術基礎在於符合大腦電腦制的多模態信號處理。上文已經說過,大腦能夠處理海量資料但又不需要強標注,之所以能這樣,除了大腦的預測功能之外,還有賴於多模態信號之間的自洽和互相監督。而人工智慧在這個領域的工作,還非常粗糙。我的看法是,這裡的瓶頸在於單信號的處理還沒做對。

即便完成了聯覺,人工智慧離真正的創作還差得遠。AlphaGo能給自己的故事拍一個記錄片嗎?能發明一個遊戲嗎?要做到這些,不把人工智慧“神似”人腦推到一個高度,不可能完成。

人工智慧會往哪裡走

討論了這麼多,大眾普遍關心的一個事關未來的問題是,下一步人工智慧會如何發展?從2012年到現在短短五年,人工智慧的研究發展之快令人吃驚。如果有一個準確的預測,那就是測不准。不過,嚴肅的從業者都知道路途有多遠。

在幾年前的一個學術討論中,我問幾個專家,解決下面這個問題需要多久:樹上五隻鳥,開槍打了一隻,還剩幾隻?

這個問題的設定本身是模糊的模糊的,從一隻沒有到五隻都是可能的答案,不管答案是什麼,無一例外我們都能說出為什麼。換句話說,資訊和資訊的處理過程是透明的,可傳遞,可解釋。解決和回答的過程包括轉換、推理、同理心、常識的運用、語言的組織等等。一位專家的三歲女兒的回答是還剩下三隻鳥。專家問為什麼?她回答說,“因為被打死的那只鳥的朋友也走了。”不得不說,這是我聽過的最具人性的回答。相比來說,如今的聊天機器人會說:你當我傻子啊?機器人的這種賣萌很可愛,但完全不是真正的智慧。

類腦計算到底是什麼,該怎麼做,既令人興奮,又讓人困惑。把大腦想得太複雜,把電腦想得太簡單,可能是尋不到主動脈、找不到銜接橋樑的原因。把“神似”的層次提高,做深,和腦科學進行比照,螺旋性地上升,將為今後人工智慧的遠航提供燃料。比如:單模態信號處理中有機整合自上而下的預測和自底向上的顯著性,多模態信號處理中的協同學習機制,結構化資訊在生成網路中的挖掘,帶模型預測(model-based)、層次化(hierarchical)的強化學習等等,這其中的任何突破都讓人期待。

原創之殤,在於缺了三點水

最後,我想談幾句相關的“題外話”,也是有關技術之外的另一種“勘誤”:中國人工智慧研究已經走在世界前沿。

我相信,若單把人工智慧作為服務落地,中國有可能成為世界第一,但若論人工智慧的研究,目前國內的狀況不容樂觀。

從學界的統計數字來看,發自中國的論文總量到世界第二位,和GDP同步。但另有一個關於影響因數的統計,在34位。把這兩個數字放在一起看,顯然落差非常大。這兩個數字很籠統,計算標準也沒有定論,但是中國學術界總體缺乏原創性,而且缺口相當大,應該沒有疑問。2017年的頂級AI會議NIPS(Neural Information Processing Systems,神經資訊處理系統進展大會),錄用六百多篇,中國各高校加起來入選二十多篇,而一個小小的紐約大學就有十篇。

另 有報導,在今年的國際電腦視覺與模式識別領域的頂級會議CVPR(Computer Vision and Pattern Recognition)中,華人學者占了近半。這個統計數字可喜,但也不是沒有問題。大概十年前,我還在系統研究領域工作,在和MIT的一位元教授共同創辦亞太地區系統研討會的時候,對該領域頂級會議做了一個類似的統計,但添加了另外一個指標:除了參與的文章外,統計了華人學者作為指導老師的文章數,結果兩者比例十分懸殊,而且連年如此。換句話說,當年攻堅拔寨的華人學生,畢業後很少成長為有視野、有創造力、有野心的指揮官。就像一把好槍,一旦出了廠,就丟了瞄準鏡。

中國學術界原創乏力,原因在哪?我認為原創之殤,在於缺了三點水。資本驅動之下加上過度注重實用;短期、“有用”的研究蔚然成風;日積月累之後,對“源”頭發問的習慣在工作中缺席。

在研究剛起步的時候,吃透別人的方法,想辦法改進,這時候問的是“毛病在哪,怎麼能更好?”這種提問,是在問題鏈的末端。往上回溯,可以問“這是正確的、有意義的衡量手段嗎?”或者“這問題的假設對不對?”。更進一步可以問,“這一類方法的共性是什麼?缺點在哪?”“這是個真問題嗎?這問題背後的問題是什麼?”等等。

這一步步的追問離源頭越來越近,離當前的“潮流”也越來越遠,也就越來越可能在性能上輸給流行的、打磨了太久太多的模型,但也越有可能做出原創的工作。

有一次一個年輕的創業者和我聊天,談起他們最近一個把深度網路稀疏化、降低功耗和減少記憶體消耗的工作。這工作顯然對優化現在的模型很有意義,但我問他知不知道人在解讀一張圖片的時候由注意力驅動,看幾眼就夠了,而每眼只消耗幾個位元組的頻寬?有沒有意識到,這是我們睜眼就有的視覺行為。

相比之下,現在流行的深度學習框架從一張圖上並行檢測幾千個小視窗,完全違背人腦視覺系統的計算過程,如果真要降低功耗,是不是應該想想這個框架是不是對?所謂機器已經在識圖問題上超過人類,只是在特定的幾個子領域,這不是學界常識嗎?

流行的框架不但浪費資源,還會丟失資訊。下面是斯坦福大學李飛飛教授開的網課“卷積神經網路和電腦視覺”第一講裡的一張圖。這張圖在說什麼?

喂給AI大批這樣的圖片,加上“戶外運動”這樣的標籤後,模型甚至可以吐出“草地上四個人在玩飛盤”這樣靠譜的回答。人腦解讀這樣的圖片,是個串列的時序過程,比如從姿態、眼神,追蹤到左手第一人手上的飛盤。一個依賴並行探測的模型,很難或者不可能恢復其中豐富的資訊。能恢復時序、恢復時序中隱蔽的語義的模型,更類腦,更難實現,但顯然更有泛化能力,也更省能耗。

人工智慧必須向大腦學習,並不是說要在細枝末節上進行高模擬的拷貝。一味追求“形似”,反過來會阻礙人工智慧的發展。應該認真思考的,是如何做到“神似”,得其精髓而不拘泥枝節。顯然,這裡要問的,還是“源”在哪。唯有如此,才能在飛鳥的背後,捕捉到飛行。

學術要做最先,落地要做最好;原創的責任歸學術界,落地的責任歸產業界,前者從0到1,後者從1到無窮大。如果學術界追求體量而不是原創和影響力,那將是對資源的大浪費。

事實上,對原創的重視分佈在整個生態環境。穀歌、臉譜等一線大公司在實驗室裡圈養大批優秀人工智慧專家,其開源和長線的基礎研究,質和量都不輸、甚至超過學校實驗室。除了推進科學,這樣的佈局也有商業上的考慮。舉例說,卷積和長短程迴圈這兩個基礎部件,如果不是因為它們的專利已經過期,那麼今天幾乎所有的深度網路模型都要交專利費。可以想像,體量如此大的中國市場,要交的份額只會最多。

向“源”而問,才有原創,才能培育真正的科學精神,才能避免未來的巨額“原創稅”。

製版編輯: 許逸|

本頁刊發內容未經書面許可禁止轉載及使用

公眾號、報刊等轉載請聯繫授權

copyright@zhishifenzi.com

然而,這個思路有兩大問題。第一,手握一大堆原子而不明白上層的大結構,不要說復原一個世界,連造個板凳都困難。機翼加上速度取得升力之後,必須要有“迎風而變”的可控性,而這正是萊特兄弟基於對鳥類飛行的大批觀察、在自行車作坊和沙灘上大量實踐之後成功的關鍵。其二,長程的電力運輸中交流電比直流電有效率,這是守舊的愛迪生在芝加哥博覽會的競標中敗給西屋公司的原因。大腦的內環境相當“惡劣”,因為腦容所限,長長短短的連結要在“湯湯水水”中繞來繞去,脈衝信號是合理的選擇。可在晶片上也這麼做,不見得必要。

如果說中科院的寒武紀晶片還有些TrueNorth的影子,那麼穀歌、微軟的AI晶片的架構不但更激進,而且更簡單。

深度學習的模型依賴幾個基本的計算模組(卷積網路、長短程迴圈網路等),但其背後更基本的精神,是高維矩陣的非線性變換,和由這些變換連結起來的資料流程圖。因此,把這個計算框架做好,同時銜接上層的軟體發展環境,是開發AI晶片的兩大重點,而拘泥於大腦的硬體架構只會自縛手腳。穀歌的TPU,存在對TensorFlow(谷歌開發的機器學習軟體工具)過度依賴的問題,卻是AlphaGo烏鎮圍棋一戰中非常亮眼的明星,勘稱廣告史上的經典。TPU不是處理器,沒有指令集,就是一坨高度優化的矩陣運算電路,其核心技術還是上世紀七十年代末的脈動陣列(Systolic array)。

►矩陣相乘單元的脈動資料流程

換句話說,人工智慧在硬體上對大腦的神似,至少從最底層的計算單元來說,已經完成。在此之上,有些基本的、被廣泛應用的計算模組(比如卷積網路和長短程迴圈網路)的設計也受大腦啟發。

相比人腦,人工智慧在模組種類上的積累還缺很多。但更多的困難來自(至少)兩方面:缺乏更好更強大的數學工具,缺乏對腦科學的瞭解,或者部分瞭解了也不知道怎樣“接入”最好。接下來我們就從一些貌似流行的看法說開去,不如先從很遠的一個願景——量子計算開始。

人工智慧需要量子計算?

訓練再複雜的模型,數學上都能歸結為一個非線性的優化過程。這決定了深度網路和其錯誤回傳、梯度下降的訓練方法不過是其中的一個不錯的、但絕不唯一的一個可能性。因此,不管白貓黑貓,能夠優化就是好貓,任何數學工具都能用,都應該嘗試,包括量子計算。

模型的學習過程的本質是非線性優化,對這一點,學界沒有異議,但對其計算過程要和大腦有多“形似”卻一直爭論不休。

反向傳遞方法的發明人之一Geoffrey Hinton教授有個多年的心病,就是在對大腦的研究中尚未發現類似機制,應和者中不乏其他大佬,包括蒙特利爾的Yoshua Bengio,麻省理工的Tomaso Poggio等。但業界其他人,包括人工智慧研究的“三駕馬車”(Geoffrey Hinton,Yoshua Bengio以及Yann LeCun)中的第三位——紐約大學的Yann LeCun就覺得,反向傳遞更優美,是數學神器給我們的禮物。他對優化過程是否和大腦“形似”不太關心。

我持拿來主義的態度:優化就是優化,優化就是神似,過程形似沒有必要。不過我認為,整個模型採用深度網路是必要的,使得模型和腦科學的實驗比照存在可能性。從長遠看,這麼做會給腦科學提供另一種實驗手段,反過來也會進一步促進人工智慧的“神似”之旅。

對腦科學的瞭解,也能讓我們判斷這樣的理由是不成立的:有一派人認為,大腦的工作機理就是量子計算,所以要量子計算。

我覺得,人類在一個基本符合牛頓定律的物理世界中競爭而生,需要量子計算這麼高端、複雜的計算模式作為基石不太可能,也沒有任何證據。支持者認為,神秘的“第六感”源自量子糾纏,但很多心理學上的實驗表明,所謂“第六感”,不過是因為大腦在下意識中捕捉到很多細微、難以查覺因此無法言說的信號而已。

再讓我們看看眼前的一些人工智慧實例。

人工智慧等於即時翻譯、圖像識別麼?

一直以來,這幾個應用有非常高的出鏡率。目前,這些模型背後的工作原理,是從海量資料裡總結統計規律,完成一個自底向上的深度非線性的映射函數,把標籤Y拍到信號X上。但是,如果我們老老實實叫它們的實名——“統計學習”——那是多麼的不酷啊!

這些模型最底層的單元計算,採用卷積網路或者長短程迴圈網路,除此之外,整個大的計算過程和人腦相差很遠,連神似的皮毛都不沾,可這幾個應用的熱炒直接導致了不少的問題和誤解。

人工智慧極度依賴大數據?

“大資料”是個十分混亂的概念。首先,什麼是打造人工智慧需要的大資料?其次,多大才算大?比如,掀起深度網路大熱潮的ImageNet資料集,有一百二十萬張帶標注的圖片。圖片中有哪類物體,在哪,通過互聯網眾籌的人力標定,再喂給模型來學習。一百二十萬張是個什麼概念?相當於一個人每秒一張,一天八個小時,看一整年的圖片量。

這其實並不算多。人活一年,睜眼看世界,攝入的視覺資訊遠比這個要多得多,更不提人活一輩子會看多少。但如果每張都要讓人記住是狗還是貓、是花還是草,不要說一年,我猜任何人連十分鐘都挺不住。

換句話說,人腦消耗的資料量要大得多,但其中刻意去學的又少得多。

除了大腦強大的記憶和泛化能力,至少還有兩個重要的手段,把大部分工作在下意識中自動處理掉了,這才使得昂貴的學習只成為了浮出水面的冰山一角。

第一個手段是,大腦對來自底層感官下一時刻的信號隨時預測,預測準確則過濾掉,只有錯了才進一步處理。不如此,淹沒在各種各樣的雜訊之中的大腦就會“過勞死”。這也是一個人撓自己癢癢不會發笑的原因。我們的日常生活空間尺度足夠大,符合牛頓物理定律,也因此充滿結構,這使得大腦能對周遭世界建立模型,有了模型就能進一步建立預測機制。具有預測功能的大腦也更穩健,能容錯通訊中因為噪音而丟失的資訊。

第二個手段是讓來自不同感官的多路信號互相監督。比如孩童把玩一個玩具,手上拿著的、眼睛看到的、耳朵聽到的,是不同模態的信號,分別在不同的大腦皮層被處理。來自同一個物體這個事實,已經是個很強的監督信號,並不需要額外標注。相反,如果信號之間不自洽,比如看上去很輕的卻拿不動,才會被注意到,並得到進一步處理。

帶自頂向下預測、多模態協同的無監督學習方法,是現在的人工智慧模型所缺失的。

強標注的樣本在整個樣本群中比例越小越好。我的好朋友江鑄久九段說,人類棋手下過的好棋譜大概三萬左右,那麼在學習完這些對局之後,AlphaGo自己下了幾盤呢?保守一點估計,AlphaGo自己對弈大概一秒一盤,每天八萬多盤。按臉譜公司田淵棟博士的推測,穀歌動用了上萬台機器,而AlphaGo專案至今已經兩年多了。所以,AlphaGo發展到今天的圍棋智力,其中有標注的資料只占總數據量的千萬分之一或更少。

因此,人工智慧確實需要更多的資料,但更需要減少其中強標注資料的占比。要達到這個目標,必須對演算法和模型做原創性的改進,更“類腦”,而不是一味採集更多的人臉照片、標注車輛,行人、人聲等等。

人工智慧必然高能耗?

這又是一個似是而非,常用來批評人工智慧的結論。其邏輯是這樣的:大腦功耗約25瓦,一個四卡GPU伺服器超過一千瓦——AlphaGo勝之不武。由此可以推論,類腦必須低功耗,尤其必須在低功耗的類腦晶片上實現。

這裡引出的一個問題是,人腦和AI,在能耗上應該怎麼比更合理?

能耗的分佈在兩個地方,一個是模型的訓練,一個是模型的使用。

訓練模型的確非常耗能。我曾參與創立的深度學習平臺MxNet最近創了個最低記錄,從頭訓練一個高性能圖像分類器ResNet,耗資一百二十萬美元。這筆錢相當於十幾個國家自然基金面上項目,顯然不便宜——但和訓練AlphaGo的能耗比,實在可以忽略不計。

人腦確實只用25瓦能耗,如果必須耗用2500瓦,在自然界的競爭中必然被淘汰掉。但請注意,它不是一夜練成的,而是歷經百萬年的進化到了今天。把時間累積在一起,再加上各種試錯,再加上各種天災造成的重啟和格式化,總能耗就一定低了嗎?

所以,我們更應該關注模型在使用時的能耗。AlphaGo下棋的大致流程和人類棋手相符,但區別在於每一個變化都會一路算到底,而下一步又生出了新的變化。AlphaGo優化了搜索策略,限制了搜索空間,即便如此,千萬步總要走的,而人類頂級棋手平均也就算二三十步。用幾十步抗衡千萬步,已經非常了不起了。但反過來,如果限制AlphaGo的計算步數,能耗下來了,勝率也一定會下跌。

►AlphaGo戰勝李世石,名噪一時

在其他一般性的任務中,人工智慧模型的效率確實非常低,但根源在於演算法和人腦差很多。圖像解析我在下文會討論到,單拿自然語言處理來說,其他不提,成句時挑詞,要把整個詞表掃一遍,而實用的詞表有至少上萬個詞,這顯然極其浪費——人說話的時候,每個時刻的候選詞並不多,這其中的量級之差上千上百。

對AlphaGo的苛求

和人臉識別、即時翻譯等等相比,下圍棋是個陽春白雪的活動。但是,穀歌的AlphaGo絕對是人工智慧發展史上重大的一筆。它包括了智慧思考過程中極為重要的幾個步驟:感知,自省,判斷,演繹,執行。AlphaGo是對大腦智力活動的神似,正因為這樣,才走得遠。

補充一句,AlphaGo演算法中依賴的搜尋樹是模型中的重要組成部分,但並不由深度網路構成——不代表不能這麼做,只是效率不會高。這又是一個不拘泥於形似的例子。

AlphaGo離真正的智慧還遠,但並不是因為以下幾個流行的說法。

流行說法之一,AlphaGo沒有通用性。這麼批評AlphaGo的人忘了,大腦的通用性不在於它是變色龍,而在於它是瑞士軍刀,配備了大批靈活合作的專業腦區。要求下棋的AlphaGo變身通用型人工智慧,是無理的要求。AlphaGo的通用性只針對一類問題,這些問題規則簡單,變化繁多,既有少量專家樣本,又能零成本產生無數新樣本。

人工智慧要達到普適的通用性,需要繼續向人腦取經。比如,如何以最經濟、最靈活為準則,即時實地整合高複用的元件來應對複雜多變的環境?再如,怎麼使得各組件的學習、計算的機制儘量一致,但又不失去專業性?舉例來說,整合自上而下的預測回饋和自底向上的注意力,利用工作記憶組裝在不同時間點獲取的區塊,是各種任務都需要的基本架構。但視覺要解決“是什麼”、“在哪裡”,語言要解決語義、語法,每個任務內含幾個互相纏繞的子問題,所涉及的功能塊和任務緊密相關,無法也沒必要和其他任務的功能塊共用。

對AlphaGo的另外一個批評是,它沒有情感。“AlphaGo可以贏棋,卻不能贏得快感”,我的一個朋友這麼調侃。

不錯,它輸了也皮厚,一點不會不好意思。可所謂至柔則剛,沒有勝負心、心無雜念,這種至高的境界卻是無數棋手苦求而不得的。人的世界完全不一樣,人是感情的動物,多巴胺的奴隸,在人生的舞臺上,太大、太小的壓力都會讓我們演砸了戲,只有適當的壓力才剛剛好。

情感的來源在於對形勢的解讀,情感的作用在於對行動作出調整。再精准的解讀如果沒有用武之地,就沒有多巴胺介入的必要性,而這正是AlphaGo實戰的情況。如果對AlphaGo運行環境做限制,設定耗能的上限,那麼按照對局勢的判斷,它有時候會提高主頻放手一搏,有時候則進入省電模式閉眼瞎蒙。時不時“臉紅耳赤心跳加速”的AlphaGo,是不是有了我們人類的情感呢?

集萬千寵愛於一身的AlphaGo,沒有生存的壓力,“感情”是個多餘的東西。而讓單兵作戰的人工智慧獲取“感受”、改變策略,沒有那麼難。在人機共生的未來,讓人工智慧在這種環境中捕獲和預測人類微妙的情感變化,和人“感同身受”,才是真正需要研究的大問題。

既然說到了人類的情感,相對於人工智慧,讓人“自豪”的另外一個領域是藝術創造,可果真如此麼?

藝術創造是人獨有的,人工智慧不會?

不止一次聽過這種介乎安慰和宣言之間的說法。從這裡出發,引申出的一個推論是,等機器人把髒活累活包了,人類可以安心地享受藝術創造了。

天底下有兩種職業貴在原創:科學研究和藝術創作。這兩方面的素養很重要,但它們作為職業,從古至今,都是處在長尾端、腦子長得不太“正常”的小眾活動。在人機共存的未來,和機器人搶活兒幹倒更可能,也應該搶,必然會搶——藝術創作領域很可能類似。

人工智慧能不能從事藝術創作?一開始的幾年,業界端出來的“作品”是不忍看的。其中一類,讓模型把看過的樣本“吐”出來,計算過程中有意無意的隨機採樣生產出一堆猶如惡夢中的怪物。比如訓練樣本中狗的圖片多,就變成這樣:

這和二十世紀初的達達主義很相似,當年所謂的“自動寫作”就可以視為隨機採樣的過程,產生出來的文字效果上是一樣的。達達主義的貢獻在於矯枉必須過正,很快讓位於超現實主義,曇花一現。

還有一種是照葫蘆畫瓢,更容易讓人接受——只是“手抖”得有技巧,學了梵古的抖法就都成了向日葵、星空,學了蒙克就處處驚叫。

這些都和藝術創作的精髓相去甚遠。攝影如要精進,除了勤按快門,要花同樣多的時間看好照片,花更多的時間去挑照片。把好的藝術品喂給模型不是難事,難的是怎麼“挑”。藝術創作不是胡亂踩點,要緊的是如何判斷,有一度我覺得這後一點是死穴:AlphaGo可以判定局勢的好壞,但應該不懂如何評判藝術吧?

不過,這幾年人工智慧學界的一個現象就是,不要把話說得太死了。

最近很火的一個深度學習分支叫“生成對抗網路”:把亂數推送給一個生成網路,合成偽資料(圖片或聲音),然後再把這些偽資料送進判別網路,判別網路比較真偽資料後,再產生讓生成網路努力“造假”的壓力。

這個框架的最終目的,是以少量樣本充盈分佈空間。兩個網路共生共長、陰陽互補。這雖然和AlphaGo用強化學習左右手互博,是兩種不同的訓練方式,但在精神上都相當辯證。

最近我注意到一項工作(CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms),讓一個模型學習從十五世紀到二十世紀超過七萬張作品,從巴羅克開始涵蓋二十五種風格。這個模型的創新點在於判決網路有意為之的“四不像標準”,要求生成的圖片既要像某種風格,又不能太像。

有人會說,那不過是已有風格的混雜而已,但熟悉藝術史的應該知道,混雜和遷移本身就是風格突破的重要源泉之一。令人驚訝的是,至少在網上“公投”的結果來看,已經是雌雄難辨。

在職業棋手被集體降級之後,藝術家會不會是下一個被碾壓的群體?

我個人不是很關心這個問題。烏鎮圍棋大戰之後我的總結是,圍棋永遠是人類腦力健身房中的寶貝,只是棋手的健身房中多了一個AlphaGo。藝術的“下場”也一樣。該下棋下棋,該畫畫就畫畫。只是,不要再說機器不會藝術創造了。

藝術的美學標準,藝術家的“手抖”規律,AI作為神偷,已經化作自己的創造力。我認為(也十分期待)的下一個引爆點,是對藝術聯覺的運用。簡單的說,聯覺是缺乏某類感官刺激,但被他類刺激引發的感知經驗,就像納博科夫在字母中“看”到、李斯特在音符中“聽”到的顏色。

再比如詩歌,其充滿張力的想像裹挾了視、聽、樂感,是詩人對聯覺的有意無意的挖掘,也是讀詩的快感之一。不具備聯覺功能的AI詩歌創作,在技巧上經不起推敲。我讀過微軟小冰的“詩作”,如果認為其想像力的背後有聯覺的作用,也是我們讀者自己在腦補。至於一些詩人的批評,因為對人工智慧缺乏瞭解,也就沒說到點上。

聯覺的技術基礎在於符合大腦電腦制的多模態信號處理。上文已經說過,大腦能夠處理海量資料但又不需要強標注,之所以能這樣,除了大腦的預測功能之外,還有賴於多模態信號之間的自洽和互相監督。而人工智慧在這個領域的工作,還非常粗糙。我的看法是,這裡的瓶頸在於單信號的處理還沒做對。

即便完成了聯覺,人工智慧離真正的創作還差得遠。AlphaGo能給自己的故事拍一個記錄片嗎?能發明一個遊戲嗎?要做到這些,不把人工智慧“神似”人腦推到一個高度,不可能完成。

人工智慧會往哪裡走

討論了這麼多,大眾普遍關心的一個事關未來的問題是,下一步人工智慧會如何發展?從2012年到現在短短五年,人工智慧的研究發展之快令人吃驚。如果有一個準確的預測,那就是測不准。不過,嚴肅的從業者都知道路途有多遠。

在幾年前的一個學術討論中,我問幾個專家,解決下面這個問題需要多久:樹上五隻鳥,開槍打了一隻,還剩幾隻?

這個問題的設定本身是模糊的模糊的,從一隻沒有到五隻都是可能的答案,不管答案是什麼,無一例外我們都能說出為什麼。換句話說,資訊和資訊的處理過程是透明的,可傳遞,可解釋。解決和回答的過程包括轉換、推理、同理心、常識的運用、語言的組織等等。一位專家的三歲女兒的回答是還剩下三隻鳥。專家問為什麼?她回答說,“因為被打死的那只鳥的朋友也走了。”不得不說,這是我聽過的最具人性的回答。相比來說,如今的聊天機器人會說:你當我傻子啊?機器人的這種賣萌很可愛,但完全不是真正的智慧。

類腦計算到底是什麼,該怎麼做,既令人興奮,又讓人困惑。把大腦想得太複雜,把電腦想得太簡單,可能是尋不到主動脈、找不到銜接橋樑的原因。把“神似”的層次提高,做深,和腦科學進行比照,螺旋性地上升,將為今後人工智慧的遠航提供燃料。比如:單模態信號處理中有機整合自上而下的預測和自底向上的顯著性,多模態信號處理中的協同學習機制,結構化資訊在生成網路中的挖掘,帶模型預測(model-based)、層次化(hierarchical)的強化學習等等,這其中的任何突破都讓人期待。

原創之殤,在於缺了三點水

最後,我想談幾句相關的“題外話”,也是有關技術之外的另一種“勘誤”:中國人工智慧研究已經走在世界前沿。

我相信,若單把人工智慧作為服務落地,中國有可能成為世界第一,但若論人工智慧的研究,目前國內的狀況不容樂觀。

從學界的統計數字來看,發自中國的論文總量到世界第二位,和GDP同步。但另有一個關於影響因數的統計,在34位。把這兩個數字放在一起看,顯然落差非常大。這兩個數字很籠統,計算標準也沒有定論,但是中國學術界總體缺乏原創性,而且缺口相當大,應該沒有疑問。2017年的頂級AI會議NIPS(Neural Information Processing Systems,神經資訊處理系統進展大會),錄用六百多篇,中國各高校加起來入選二十多篇,而一個小小的紐約大學就有十篇。

另 有報導,在今年的國際電腦視覺與模式識別領域的頂級會議CVPR(Computer Vision and Pattern Recognition)中,華人學者占了近半。這個統計數字可喜,但也不是沒有問題。大概十年前,我還在系統研究領域工作,在和MIT的一位元教授共同創辦亞太地區系統研討會的時候,對該領域頂級會議做了一個類似的統計,但添加了另外一個指標:除了參與的文章外,統計了華人學者作為指導老師的文章數,結果兩者比例十分懸殊,而且連年如此。換句話說,當年攻堅拔寨的華人學生,畢業後很少成長為有視野、有創造力、有野心的指揮官。就像一把好槍,一旦出了廠,就丟了瞄準鏡。

中國學術界原創乏力,原因在哪?我認為原創之殤,在於缺了三點水。資本驅動之下加上過度注重實用;短期、“有用”的研究蔚然成風;日積月累之後,對“源”頭發問的習慣在工作中缺席。

在研究剛起步的時候,吃透別人的方法,想辦法改進,這時候問的是“毛病在哪,怎麼能更好?”這種提問,是在問題鏈的末端。往上回溯,可以問“這是正確的、有意義的衡量手段嗎?”或者“這問題的假設對不對?”。更進一步可以問,“這一類方法的共性是什麼?缺點在哪?”“這是個真問題嗎?這問題背後的問題是什麼?”等等。

這一步步的追問離源頭越來越近,離當前的“潮流”也越來越遠,也就越來越可能在性能上輸給流行的、打磨了太久太多的模型,但也越有可能做出原創的工作。

有一次一個年輕的創業者和我聊天,談起他們最近一個把深度網路稀疏化、降低功耗和減少記憶體消耗的工作。這工作顯然對優化現在的模型很有意義,但我問他知不知道人在解讀一張圖片的時候由注意力驅動,看幾眼就夠了,而每眼只消耗幾個位元組的頻寬?有沒有意識到,這是我們睜眼就有的視覺行為。

相比之下,現在流行的深度學習框架從一張圖上並行檢測幾千個小視窗,完全違背人腦視覺系統的計算過程,如果真要降低功耗,是不是應該想想這個框架是不是對?所謂機器已經在識圖問題上超過人類,只是在特定的幾個子領域,這不是學界常識嗎?

流行的框架不但浪費資源,還會丟失資訊。下面是斯坦福大學李飛飛教授開的網課“卷積神經網路和電腦視覺”第一講裡的一張圖。這張圖在說什麼?

喂給AI大批這樣的圖片,加上“戶外運動”這樣的標籤後,模型甚至可以吐出“草地上四個人在玩飛盤”這樣靠譜的回答。人腦解讀這樣的圖片,是個串列的時序過程,比如從姿態、眼神,追蹤到左手第一人手上的飛盤。一個依賴並行探測的模型,很難或者不可能恢復其中豐富的資訊。能恢復時序、恢復時序中隱蔽的語義的模型,更類腦,更難實現,但顯然更有泛化能力,也更省能耗。

人工智慧必須向大腦學習,並不是說要在細枝末節上進行高模擬的拷貝。一味追求“形似”,反過來會阻礙人工智慧的發展。應該認真思考的,是如何做到“神似”,得其精髓而不拘泥枝節。顯然,這裡要問的,還是“源”在哪。唯有如此,才能在飛鳥的背後,捕捉到飛行。

學術要做最先,落地要做最好;原創的責任歸學術界,落地的責任歸產業界,前者從0到1,後者從1到無窮大。如果學術界追求體量而不是原創和影響力,那將是對資源的大浪費。

事實上,對原創的重視分佈在整個生態環境。穀歌、臉譜等一線大公司在實驗室裡圈養大批優秀人工智慧專家,其開源和長線的基礎研究,質和量都不輸、甚至超過學校實驗室。除了推進科學,這樣的佈局也有商業上的考慮。舉例說,卷積和長短程迴圈這兩個基礎部件,如果不是因為它們的專利已經過期,那麼今天幾乎所有的深度網路模型都要交專利費。可以想像,體量如此大的中國市場,要交的份額只會最多。

向“源”而問,才有原創,才能培育真正的科學精神,才能避免未來的巨額“原創稅”。

製版編輯: 許逸|

本頁刊發內容未經書面許可禁止轉載及使用

公眾號、報刊等轉載請聯繫授權

copyright@zhishifenzi.com

Next Article
喜欢就按个赞吧!!!
点击关闭提示