華文網

魏少軍:中國人工智慧晶片與國外到底多大差距?

請看《國際電子商情》記者第一時間為您帶來魏教授的現場演講實錄:

人工智慧是一個老的新話題。之所以現在人工智慧的話題又火起來,是因為兩個事情,穀歌研發的阿爾法Go和世界兩位頂尖棋手的對弈。第一件事是與韓國棋手李世的對弈,李世石成為唯一戰勝阿爾法Go的棋手。半年後,世界排名第一的柯潔說李世石不行,我來下。結果是0:3,柯潔痛哭流涕。所以這兩件事對人工智慧的推動非常重要。

我們很多人認為阿爾法狗代表人工智慧取代人腦的重要證據。

這個事情沒有這麼悲觀,最開始阿爾法狗是希望在沒有人類干預的情況下戰勝人類棋手。但其實在兩場棋局中還是有人干預。還有一件事是,IBM的人工智慧電腦做了一場知識競賽。上個月我去了一趟IBM看了一下這個電腦,它的智力遠遠高於阿爾法狗。

一個是人工智慧的初創企業在大大增加,第二個是人工智慧企業的融資額達到了50億美元。我們積體電路除了並購之外,要想在初創企業融資增速非常快。所以可以看到風險投資很活躍,說明這個行業是在上升期。

人工智慧最重要的是預測未來

儘管如此,人工智慧是老的新話題。因為上個世紀50年代人工智慧就開始提出了。主要是為了讓機器展示智慧模仿認知功能,如感知、推理、學習、及問題解決。1980年出現了機器學習,這是實現人工智慧的主要途徑,主要是學習並開展資料驅動的經驗預測。2010年出現了深度學習,這是機器學習的一個分支,他是要模仿人腦通過人工神經網路獲得高階學習機會。

傳統的資料採擷主要是描述發生了什麼,比如問一個問題,哪個產品在過去一年最賺錢,這個是最容易統計的。還有一個機器學習是預測,通過外推資料以預測行為和事件,是通過概率來分析。比如某個客戶在未來一年中最可能買哪個產品?而到了最後的一個環節就是決策,主要是領先的資料被互聯網公司應用。比如為了最大化下一年的銷售,

產品的最佳售價是多少?

通過這三個清晰的問題可以看到三者之間的差距。所以人工智慧最重要的是要預測未來,所以我們在對人工智慧的理解要有正確的認識。

人工智慧的基礎和根本是晶片

目前非常多的初創企業進入人工智慧領域,機器學習的創業空間正在擁擠起來。

工欲善其事必先利其器,人工智慧的根本是智慧晶片。離開晶片你沒辦法找到第二種人工智慧的實現方法,未來的至少10年內你找不到可替代晶片的方法。如果你能找到,那我恭喜你。

從計算能力看,目前主要的人工智慧晶片是GPU。GPU的計算能力比CPU大概提高了5倍,存儲能力是2倍到4倍。目前Intel占了71%的市場,Nvidia占了16%。Nvidia在分立式GPU上佔據主要優勢。而人工智慧主要應用於分立式GPU。但是目前任何一種方案無法用於本地移動終端,因為功耗太大。

還有一種晶片方案是通過FPGA,與純CPU/SW相比性能提高5~10倍,功耗下降到了GPU環境的20%。

另一種是Google提出的TPU概念,與GPU相比,用較低的精度提高性能,功耗下降到GPU環境的10%。

還有一個是NeuRAM,我個人認為這個學習方式很可能是未來的發展方向。還有一個是Micron,用的是MISD的並行架構,DRAM的工藝,這個開始有點意思。

類人腦晶片才是最終方向?

我更願意介紹是IBM的TrueNorth。這樣一顆晶片,我在IBM訪問的時候有很大的震撼。這個完全仿照大腦的做法,能力相當高,功耗只有65毫瓦,它的學習能力極強。

下一步IBM的最終目標是希望建立一個完全仿照大腦的類鬧電腦。如果這能實現,成本不高,這有可能真正實現所謂人形機器人。今後對我們進入老齡化的時代影響是非常大的。這個方面會實現最大的計算量。

談到智慧晶片,什麼是智慧晶片呢?是不是IBM的這個就是智慧晶片?首先我們要看如何來理解智慧或者智慧?智慧是人特有的一項東西,它包括思考和解決問題的能力。

人類的智慧整個環節包括感知、傳輸、存儲、處理、決策、傳輸、執行。決策這個環節又分為分休、計算、判斷、經驗知識。前後兩端從感知、傳輸到後端的傳輸、執行都不是智慧。而中間的才算是智慧。

首先我們看人類大腦,140億個神經元。IBM要做的類腦晶片大概100多億個神經元,我們看到兩者之間有很接近的地方。工作頻率兩百赫茲,也不高。最奇怪的是,我們吃點什麼米飯、豆腐、白菜,20瓦的功耗也可以完成這些功能。我們的大腦皮層面積是0.25平方米,這是自然進化而來的。

我們得過世界第一的天河電腦,用了27億個晶片,比人腦還要小一點。傳送速率是每秒中30萬公里,它的頻率是4.2GHz,由於可以把很多運算堆在一起,可以做很多的運算,但是功耗、占地面積都非常驚人。所以這兩個對比,人腦和機器之間,要真正用機器實現人腦功能恐怕不容易。

我們猜想人腦怎麼工作的呢?出現一個事件怎麼辦?首先要想像特徵,我們怎麼認出一個人?他的特徵牢牢的出現在我的腦海中。我出現了記憶,做出決策,然後做出行動。這個過程是一個循環往復的過程。

當然,有可能我們見到的是一個陌生人,我記憶中不存在,我現需要做一個決策。然後把行動驗證我的記憶是否是對的。所以在不斷的往復過程中,我們在不斷的學習加深印象。這個過程中也許我見一個人,幾分鐘就有印象。所以學習中會有長久的反覆運算過程。所以計算是非常重要的。

什麼晶片才算人工智慧晶片?

人工智慧晶片的幾個要素:

首先一定要可程式設計,這樣才能適應演算法的演進和應用的多樣性。

架構的動態可變性,沒有一個晶片可以百分之百石英所有的演算法。

要有架構的變化能力,最好小於10個時鐘週期,最好小於1個時鐘週期。

高計算效率,指令這樣的低效率架構就不要做了。

最重要的是,高能量的效率,我覺得理想情況下,每瓦功耗低於5萬億次。如果做不到這一點,真正做起來就會很難受。

有些應用功耗要小於1mw,有些東西要求速度足夠快,比如視頻識別,一些監控識別要做到每秒鐘大於25幀。

最後是低成本,你要做消費類產品價格不能搞。

體積小,也是為了能在移動設備上。

應用開發要簡便,不要讓做應用開發的工程師學習晶片設計知識。

我們首先不知道人腦是怎麼完成計算的,我們現在是用軟體+晶片構成的類腦軟體。包括智慧軟體和智慧晶片。以前我們做晶片跟軟體關係不大,但現在的一個方向是通過軟體來定義晶片。

大家說了,FPGA不行嗎?我們把FPGA的10大缺陷,1,細細微性,必須實現比特級的運算,第二配置信息量大,配置時間需要十幾毫秒到即使毫秒。另外是靜態程式設計以及邏輯不可複用。面積效率低。能量效率也很低,大量邏輯利用率低,需要特種工藝。FPGA需要最先進的製造工藝。另外應用者必須具備電路設計經驗。最後是成本高昂,所以FPGA價格在及時到幾萬美元一片。

所以目前的標準來看,目前CPU+GPU、CPU+FPGA、CPU+ASIC的晶片結構都不是最好的人工智慧晶片方法。我們認為FPGA的人工智慧目前最主要的客戶現階段應該是互聯網企業,而互聯網企業基本上沒有什麼量。你要用ASIC還是FPGA你一定要通過電路設計這條關。所以這個過程中大量的降低了大家的應用門檻。

軟體定義晶片成方向,AI晶片要讓手機能用

那麼到底該怎麼做?這裡是一個硬體和軟體的拓撲架構,這個時候從計算的效率最好。功耗不見得最好。軟體的規模可以仁義達,但硬體規模總是有限的。我們只好將硬體分塊,不斷將軟體一塊塊進來運行。這就要求解決不同的問題,要求計算硬體架構和功能動態的、即時地跟隨軟體的變化而變化。最好能在一個時鐘週期,最多不超過10個時鐘週期改變。

資料會根據控制單元的要求來配置計算單元,這樣的結構是通過C語言來實現計算,跟傳統的電腦語言是一樣的,但是編譯器有很大的不同。

這是非常經典的馮諾依曼的計算結構。我們把Memory放進去,把I/O分開,我們到現在為止沒有改變任何馮諾依曼體系的結構。

所以如果把可重構計算與經典計算進行比較,經典結構是剛性的,而可重構計算是函數化的柔性的。在性能上偏重於ASIC,靈活性上偏重於處理器。兩者兼而有之。

我們利用這樣的結構實現了可重構的神經網路計算。Thinker這是去年在深圳高交會上發佈的。可能再過半個月會有一些新的消息出現。利用這個結構,來相應不同應用的神經架構網路。這樣一個結構是什麼樣的?我們的晶片用了TSMC 65nm的LP工藝,很小的Memory,很低的工作頻率,峰值性能做到409個GOPS。所以這樣一個小小的東西實現的性能如此之高,如果跟其它相比,可以發現能量效率至少高了5倍。

我們認為目前的人工智慧晶片還不能進入手機,如果讓晶片進入手機,才真正能獲得新生。如果只給互聯網企業用,一定沒有量。所以不解決進入手機、家庭,人工智慧晶片沒有希望。所以要解決功耗、成本問題。

國內的人工智慧晶片和國外到底有多大差距?

最後總結,晶片是軟體性能載體,一定要滿足軟體不斷變化的計算需求。有人問我,目前國內的人工智慧晶片跟國際上有多大差距? 我的回答是:應用上跟國際同行一個水平線。方法上落後。晶片上差半步。

但這個差半步並不意味著快成功了,中國有句古話叫“行百里而半九十”。也就是最後這10%要花費的精力可能要花費一半甚至以上的精力。可能就差這10%,我們就永遠無法實現。所以我們應用關注晶片的基礎技術,我們在晶片的能力上還有差距。如果克服不了這個差距,不要想超越人家。

謝謝!(完)

工欲善其事必先利其器,人工智慧的根本是智慧晶片。離開晶片你沒辦法找到第二種人工智慧的實現方法,未來的至少10年內你找不到可替代晶片的方法。如果你能找到,那我恭喜你。

從計算能力看,目前主要的人工智慧晶片是GPU。GPU的計算能力比CPU大概提高了5倍,存儲能力是2倍到4倍。目前Intel占了71%的市場,Nvidia占了16%。Nvidia在分立式GPU上佔據主要優勢。而人工智慧主要應用於分立式GPU。但是目前任何一種方案無法用於本地移動終端,因為功耗太大。

還有一種晶片方案是通過FPGA,與純CPU/SW相比性能提高5~10倍,功耗下降到了GPU環境的20%。

另一種是Google提出的TPU概念,與GPU相比,用較低的精度提高性能,功耗下降到GPU環境的10%。

還有一個是NeuRAM,我個人認為這個學習方式很可能是未來的發展方向。還有一個是Micron,用的是MISD的並行架構,DRAM的工藝,這個開始有點意思。

類人腦晶片才是最終方向?

我更願意介紹是IBM的TrueNorth。這樣一顆晶片,我在IBM訪問的時候有很大的震撼。這個完全仿照大腦的做法,能力相當高,功耗只有65毫瓦,它的學習能力極強。

下一步IBM的最終目標是希望建立一個完全仿照大腦的類鬧電腦。如果這能實現,成本不高,這有可能真正實現所謂人形機器人。今後對我們進入老齡化的時代影響是非常大的。這個方面會實現最大的計算量。

談到智慧晶片,什麼是智慧晶片呢?是不是IBM的這個就是智慧晶片?首先我們要看如何來理解智慧或者智慧?智慧是人特有的一項東西,它包括思考和解決問題的能力。

人類的智慧整個環節包括感知、傳輸、存儲、處理、決策、傳輸、執行。決策這個環節又分為分休、計算、判斷、經驗知識。前後兩端從感知、傳輸到後端的傳輸、執行都不是智慧。而中間的才算是智慧。

首先我們看人類大腦,140億個神經元。IBM要做的類腦晶片大概100多億個神經元,我們看到兩者之間有很接近的地方。工作頻率兩百赫茲,也不高。最奇怪的是,我們吃點什麼米飯、豆腐、白菜,20瓦的功耗也可以完成這些功能。我們的大腦皮層面積是0.25平方米,這是自然進化而來的。

我們得過世界第一的天河電腦,用了27億個晶片,比人腦還要小一點。傳送速率是每秒中30萬公里,它的頻率是4.2GHz,由於可以把很多運算堆在一起,可以做很多的運算,但是功耗、占地面積都非常驚人。所以這兩個對比,人腦和機器之間,要真正用機器實現人腦功能恐怕不容易。

我們猜想人腦怎麼工作的呢?出現一個事件怎麼辦?首先要想像特徵,我們怎麼認出一個人?他的特徵牢牢的出現在我的腦海中。我出現了記憶,做出決策,然後做出行動。這個過程是一個循環往復的過程。

當然,有可能我們見到的是一個陌生人,我記憶中不存在,我現需要做一個決策。然後把行動驗證我的記憶是否是對的。所以在不斷的往復過程中,我們在不斷的學習加深印象。這個過程中也許我見一個人,幾分鐘就有印象。所以學習中會有長久的反覆運算過程。所以計算是非常重要的。

什麼晶片才算人工智慧晶片?

人工智慧晶片的幾個要素:

首先一定要可程式設計,這樣才能適應演算法的演進和應用的多樣性。

架構的動態可變性,沒有一個晶片可以百分之百石英所有的演算法。

要有架構的變化能力,最好小於10個時鐘週期,最好小於1個時鐘週期。

高計算效率,指令這樣的低效率架構就不要做了。

最重要的是,高能量的效率,我覺得理想情況下,每瓦功耗低於5萬億次。如果做不到這一點,真正做起來就會很難受。

有些應用功耗要小於1mw,有些東西要求速度足夠快,比如視頻識別,一些監控識別要做到每秒鐘大於25幀。

最後是低成本,你要做消費類產品價格不能搞。

體積小,也是為了能在移動設備上。

應用開發要簡便,不要讓做應用開發的工程師學習晶片設計知識。

我們首先不知道人腦是怎麼完成計算的,我們現在是用軟體+晶片構成的類腦軟體。包括智慧軟體和智慧晶片。以前我們做晶片跟軟體關係不大,但現在的一個方向是通過軟體來定義晶片。

大家說了,FPGA不行嗎?我們把FPGA的10大缺陷,1,細細微性,必須實現比特級的運算,第二配置信息量大,配置時間需要十幾毫秒到即使毫秒。另外是靜態程式設計以及邏輯不可複用。面積效率低。能量效率也很低,大量邏輯利用率低,需要特種工藝。FPGA需要最先進的製造工藝。另外應用者必須具備電路設計經驗。最後是成本高昂,所以FPGA價格在及時到幾萬美元一片。

所以目前的標準來看,目前CPU+GPU、CPU+FPGA、CPU+ASIC的晶片結構都不是最好的人工智慧晶片方法。我們認為FPGA的人工智慧目前最主要的客戶現階段應該是互聯網企業,而互聯網企業基本上沒有什麼量。你要用ASIC還是FPGA你一定要通過電路設計這條關。所以這個過程中大量的降低了大家的應用門檻。

軟體定義晶片成方向,AI晶片要讓手機能用

那麼到底該怎麼做?這裡是一個硬體和軟體的拓撲架構,這個時候從計算的效率最好。功耗不見得最好。軟體的規模可以仁義達,但硬體規模總是有限的。我們只好將硬體分塊,不斷將軟體一塊塊進來運行。這就要求解決不同的問題,要求計算硬體架構和功能動態的、即時地跟隨軟體的變化而變化。最好能在一個時鐘週期,最多不超過10個時鐘週期改變。

資料會根據控制單元的要求來配置計算單元,這樣的結構是通過C語言來實現計算,跟傳統的電腦語言是一樣的,但是編譯器有很大的不同。

這是非常經典的馮諾依曼的計算結構。我們把Memory放進去,把I/O分開,我們到現在為止沒有改變任何馮諾依曼體系的結構。

所以如果把可重構計算與經典計算進行比較,經典結構是剛性的,而可重構計算是函數化的柔性的。在性能上偏重於ASIC,靈活性上偏重於處理器。兩者兼而有之。

我們利用這樣的結構實現了可重構的神經網路計算。Thinker這是去年在深圳高交會上發佈的。可能再過半個月會有一些新的消息出現。利用這個結構,來相應不同應用的神經架構網路。這樣一個結構是什麼樣的?我們的晶片用了TSMC 65nm的LP工藝,很小的Memory,很低的工作頻率,峰值性能做到409個GOPS。所以這樣一個小小的東西實現的性能如此之高,如果跟其它相比,可以發現能量效率至少高了5倍。

我們認為目前的人工智慧晶片還不能進入手機,如果讓晶片進入手機,才真正能獲得新生。如果只給互聯網企業用,一定沒有量。所以不解決進入手機、家庭,人工智慧晶片沒有希望。所以要解決功耗、成本問題。

國內的人工智慧晶片和國外到底有多大差距?

最後總結,晶片是軟體性能載體,一定要滿足軟體不斷變化的計算需求。有人問我,目前國內的人工智慧晶片跟國際上有多大差距? 我的回答是:應用上跟國際同行一個水平線。方法上落後。晶片上差半步。

但這個差半步並不意味著快成功了,中國有句古話叫“行百里而半九十”。也就是最後這10%要花費的精力可能要花費一半甚至以上的精力。可能就差這10%,我們就永遠無法實現。所以我們應用關注晶片的基礎技術,我們在晶片的能力上還有差距。如果克服不了這個差距,不要想超越人家。

謝謝!(完)