華文網

哪種晶片架構將成為人工智慧時代的開路先鋒

如果用刀來比喻晶片,通用處理器好比一把瑞士軍刀,人工智慧時代好比要拿刀來切肉,瑞士軍刀可以拿來用,但它並非是為切肉設計的,所以效果並非最好。因此,需要專門打造一把切肉的刀,

這把刀既要方便切肉,又要方便剁骨頭,還需要具有一定的通用性。

從技術上而言,深度學習的人工神經網路演算法與傳統計算模式不同,它能夠從輸入的大量資料中自發的總結出規律,從而舉一反三,泛化至從未見過的案例中。因此,它不需要人為的提取所需解決問題的特徵或者總結規律來進行程式設計。人工神經網路演算法實際上是通過大量樣本資料訓練建立了輸入資料和輸出資料之間的映射關係,

其最直接的應用是在分類識別方面。例如訓練樣本的輸入是語音資料,訓練後的神經網路實現的功能就是語音辨識,如果訓練樣本輸入是人臉圖像資料,訓練後實現的功能就是人臉識別。

例如,“穀歌大腦”用了上萬個通用處理器“跑”了數天來學習如何識別貓臉;“阿爾法狗”和李世石下棋時使用了上千個中央處理器(CPU)和數百個圖形處理器(GPU),平均每局電費近3000美元。對於絕大多數智慧需求來說,基於通用處理器的傳統電腦成本高、功耗高、體積大、速度慢,難以接受。

用於影像處理的GPU晶片因海量資料並行運算能力,被最先引入深度學習。2011年,當時在穀歌就職的吳恩達將英偉達的GPU應用于“穀歌大腦”中,

結果表明12個GPU可達到相當於2000個CPU的深度學習性能。之後多家研究機構都基於GPU來加速其深度學習神經網路。

隨之而來的是,英偉達通過GPU在深度學習中體現的出色性能迅速切入人工智慧領域,又通過打造NVIDIA CUDA 平臺大大提升其程式設計效率、開放性和豐富性,

建立了包含CNN、DNN、深度感知網路、RNN、LSTM 以及強化學習網路等演算法的平臺。

但是,隨著人工智慧的發展,GPU開始在三個方面顯露出局限性:

第一, 應用過程中無法充分發揮平行計算優勢。深度學習包含訓練和應用兩個計算環節,GPU 在深度學習演算法訓練上非常高效,但在應用時一次性只能對於一張輸入圖像進行處理, 並行度的優勢不能完全發揮。

第二, 硬體結構固定不具備可程式設計性。深度學習演算法還未完全穩定,若深度學習演算法發生大的變化,GPU 無法像FPGA 一樣可以靈活的配置硬體結構。

第三, 運行深度學習演算法能效遠低於FPGA。學術界和產業界研究已經證明,運行深度學習演算法中實現同樣的性能,GPU 所需功耗遠大於FPGA,例如國內初創企業深鑒科技基於FPGA 平臺的人工智慧晶片在同樣開發週期內相對GPU 能效有一個數量級的提升。

難道FPGA就是最佳選擇了?未必。

FPGA在人工智慧的應用上同樣存在一定的局限性:第一,基本單元的計算能力有限。為了實現可重構特性,FPGA 內部有大量極細細微性的基本單元,但是每個單元的計算能力(主要依靠LUT 查閱資料表)都遠遠低於CPU 和GPU 中的ALU模組。 第二,速度和功耗相對專用定制晶片(ASIC)仍然存在不小差距。 第三,FPGA 價格較為昂貴,在規模放量的情況下單塊FPGA 的成本要遠高於專用定制晶片。

當然還有TPU、ARM等晶片架構不停的向人工智慧領域靠攏,同樣具備一定的優勢和局限性。我們正處在從資訊時代邁向智慧時代的重要拐點,人工智慧將推動新一輪計算革命,而晶片行業作為產業最上游,是人工智慧時代的開路先鋒,最終哪種晶片將成為AI的“伴侶”,相信很快就會浮出水面。

難道FPGA就是最佳選擇了?未必。

FPGA在人工智慧的應用上同樣存在一定的局限性:第一,基本單元的計算能力有限。為了實現可重構特性,FPGA 內部有大量極細細微性的基本單元,但是每個單元的計算能力(主要依靠LUT 查閱資料表)都遠遠低於CPU 和GPU 中的ALU模組。 第二,速度和功耗相對專用定制晶片(ASIC)仍然存在不小差距。 第三,FPGA 價格較為昂貴,在規模放量的情況下單塊FPGA 的成本要遠高於專用定制晶片。

當然還有TPU、ARM等晶片架構不停的向人工智慧領域靠攏,同樣具備一定的優勢和局限性。我們正處在從資訊時代邁向智慧時代的重要拐點,人工智慧將推動新一輪計算革命,而晶片行業作為產業最上游,是人工智慧時代的開路先鋒,最終哪種晶片將成為AI的“伴侶”,相信很快就會浮出水面。