您的位置:首頁>設計>正文

第一個手機端分散式深度學習系統,設計自動化頂會 DATE 最佳論文

新智元報導

DATE——Design, Automation and Test in Europe, 是歐洲最大的設計自動化會議。 DATE 彙集的人群從研究者、開放商到終端使用者, 幾乎覆蓋了整個生態。 具體說, 設計師和設計自動化的用戶、研究人員和供應商, 以及電子電路和系統的軟硬設計、測試和製造的專家。 此外, DATE 非常強調 IC/SoC, 可重配置硬體, 還有嵌入式系統。

2017 年的 DATE 本月 27 號在瑞士洛桑揭幕。 在為期 5 天的會議中, 除了常規的主旨演講、論文發表、講座和研討會, 還有一個商業展出,

展示的內容包括最先進的設計和測試工具、方法、IP 以及設計服務, 還有可重構和其他的硬體平臺, 比如汽車、無線、電信和多媒體應用。 可以說, 相比其他頂會, DATE 的內容可能與我們的生活關系更為密切。

每屆頂會的論文都代表了領域“熱門研究方向”、“最新研究方法”, 其中尤屬最佳論文值得關注。 2017 年 DATE 評選出了 4 篇最佳論文, 設計(D Track)、應用(A Track)、測試(T Track)和嵌入式軟體(E Track)四個分類各一篇。 其中, 2017 年 DATE 嵌入式軟體 E Track 的最佳論文獎被授予了杜克大學陳怡然教授組關於移動平臺深度學習計算的文章——《MoDNN:用於深度神經網路的本地分散式移動計算系統》。

*投稿時陳怡然教授尚在匹茲堡大學, 今年初已轉到杜克大學工作

在這篇論文中, 研究人員提出了一個可以通過無線局域網(WLAN)工作的深度神經網路(DNN)的本地分散式移動計算系統,

叫做 MoDNN。 MoDNN 可以通過在多個移動設備之間引入執行的並行性, 顯著加速 DNN 的計算。

DNN 的應用越來越廣, 不僅是在大型的資料中心, 現在, 有些智慧手機的功能也強大到能運行某些深度學習, 舉幾個常見的例子, 過濾掉麥克風裡的雜音, 或者刪除加速計採集的資料裡不必要的信號。

深度學習可以大幅提升手機 App 的性能, 讓智慧手機變得更加“智慧”。 這一切的基礎, 就是在移動端也能運行 DNN。

研究人員表示, “據們所知, 本文是第一篇利用WLAN中的各種移動設備作為DNN計算資源的論文, 在執行並行性增強和資料傳輸方面有多項創新”。

下面我們就來具體看一下陳怡然教授組的這項研究成果。

論文 MoDNN:用於深度神經網路的本地分散式移動計算系統

作者:毛駕臣、陳翔、Kent W. Nixon、Christopher Krieger, 陳怡然

摘要

雖然深層神經網路(DNN)在許多應用中被廣泛使用, 但是通常難以在資源受限的設備(例如移動平臺)上部署DNN。 一些現有的嘗試主要集中在用戶端 - 伺服器計算模式或DNN壓縮模型中,

這需要基礎設施的支撐或專門的訓練。 本文提出了MoDNN——一個用於DNN應用的本地分散式移動計算系統。 MoDNN 可以將已訓練的DNN模型分割到多個移動設備上, 減輕設備級計算成本和記憶體使用, 從而加速DNN計算。 我們還設計了兩種模型分區方案以最小化非並行資料的傳遞時間, 包括喚醒時間和傳輸時間。 實驗結果表明, 當工作節點數從2增加到4時, MoDNN可以加速DNN計算2.17-4.28×。 除了並存執行之外, 性能加速也部分來自於資料傳送時間的減少, 例如對於傳統2D網格分區, 減少了30.02%。

背景介紹

移動網路日益增長的頻寬激發了移動設備上多媒體互動式應用的快速增長, 這涉及密集的物件識別和分類任務。 深度神經網路(DNN)由於其高精度和自我調整性而被廣泛地用於執行這些任務。然而,DNN的運行會佔用相當大的資源。一個代表性的例子是VGG,它代表了2014年 ImageNet 大規模視覺識別挑戰(ILSVRC14)的最先進性能。VGG具有15M的神經元、144M的參數和3.4B的連接。當部署在移動設備時,VGG花費大約16秒來完成一個圖像的識別過程,這在實踐中是不可容忍的。

DNN的巨大計算負載和移動設備的有限計算資源之間的鴻溝對用戶體驗產生了不利影響,並催生了一些研究工作來填補這一鴻溝。例如,用戶端 - 伺服器模式是一種直接的解決方案,可以有效地將高計算成本卸載到外部基礎設施上:Hauswald etal.(2014) 提出了一種流水線機器學習結構中的資料卸載方案; Li et al.(2014) 建立了DNN訓練的高效分散式參數伺服器框架。此外,也有許多研究致力於減少DNN的計算工作量,例如模型壓縮:Han et al.(2015)使用三級流水線深度壓縮DNN模型:剪枝,受訓量化和霍夫曼編碼;Chen et al(2015)引入了低成本雜湊函數將權重分組到雜湊桶中以用於參數共用。

我們發現,有一個重要的場景,在以前的研究中還沒有充分考察。那就是,在本地分散式移動計算系統上運行DNN。與由外部基礎設施支援單個移動設備的用戶端 - 伺服器模式相比,本地分散式移動計算系統有幾個重要的優勢,包括更多的本地計算資源、更高的隱私、對網路頻寬更少的依賴等等。

這篇論文的主要貢獻是:

調查了使用多個授權的、支援WiFi的、用於DNN計算的移動設備在WLAN中構建計算集群的方法。攜帶了測試資料(例如圖像)的移動設備充當 Group Owner(GO),其他設備充當工作節點;

基於兩類DNN層的特性(卷積層和完全連接層)和不同移動設備的計算能力,提出兩種分區方案以最小化移動設備之間的資料傳送時間;

在計算集群中的每個移動設備上使用中介軟體來調度整個執行過程。

據我們所知,本文是第一篇利用 WLAN 中的各種移動設備作為DNN計算資源的論文,在執行並行性增強和資料傳輸方面有多項創新”。實驗結果表明,當工作節點數從2增加到4時,由於實現了高執行並行性,以及資料傳輸時間顯著減少,MoDNN可以加速DNN計算2.17-4.28X。

MoDNN的系統框架

圖1是MoDNN的系統框架概述,包括三個主要元件:

1)由GO和多個工作節點形成的本地分散式網路集群;

2)將DNN模型分割到工作節點上的模型處理器;

3)執行DNN的資料傳遞和識別服務的中介軟體。

圖1

我們注意到卷積層(CL)的計算成本主要取決於其輸入大小。因此,我們引入了Biased One-Dimensional Partition (BODP)的方案來劃分CL。相反,完全連接層(FL)的記憶體使用主要由層中的權重數量決定。鑒於此,專門針對稀疏FL引入了由Modified Spectral Co-Clustering (MSCC)和Fine-Grain CrossPartition(FGCP)組成的權重分割方案。值得注意的是,一旦DNN被訓練,DNN模型分區只需要在應用程式中執行一次。因此,只要訓練的DNN保持相同,分區成本可以由系統的執行來分攤。

更多關於系統實現和實驗設置的技術細節,請查閱論文。

結語

在這篇論文中,作者提出了 MoDNN 本地分散式移動計算系統,以實現 DNN 在移動平臺上的平行計算。由於卷積層和完全連接層被認為是影響總體執行時間的主要DNN組件,因此作者提出了幾種高級分區方案,即 BODP、MSCC 和 FGCP,以平衡每個工作節點的工作負載,最小化資料傳送時間。實驗表明,在DNN計算上,MoDNN 比線性性能加速表現更好,展現了DNN應用中移動平臺的巨大潛力。

170328”

3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括“BAT”在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文,查閱文字版大會實錄

深度神經網路(DNN)由於其高精度和自我調整性而被廣泛地用於執行這些任務。然而,DNN的運行會佔用相當大的資源。一個代表性的例子是VGG,它代表了2014年 ImageNet 大規模視覺識別挑戰(ILSVRC14)的最先進性能。VGG具有15M的神經元、144M的參數和3.4B的連接。當部署在移動設備時,VGG花費大約16秒來完成一個圖像的識別過程,這在實踐中是不可容忍的。

DNN的巨大計算負載和移動設備的有限計算資源之間的鴻溝對用戶體驗產生了不利影響,並催生了一些研究工作來填補這一鴻溝。例如,用戶端 - 伺服器模式是一種直接的解決方案,可以有效地將高計算成本卸載到外部基礎設施上:Hauswald etal.(2014) 提出了一種流水線機器學習結構中的資料卸載方案; Li et al.(2014) 建立了DNN訓練的高效分散式參數伺服器框架。此外,也有許多研究致力於減少DNN的計算工作量,例如模型壓縮:Han et al.(2015)使用三級流水線深度壓縮DNN模型:剪枝,受訓量化和霍夫曼編碼;Chen et al(2015)引入了低成本雜湊函數將權重分組到雜湊桶中以用於參數共用。

我們發現,有一個重要的場景,在以前的研究中還沒有充分考察。那就是,在本地分散式移動計算系統上運行DNN。與由外部基礎設施支援單個移動設備的用戶端 - 伺服器模式相比,本地分散式移動計算系統有幾個重要的優勢,包括更多的本地計算資源、更高的隱私、對網路頻寬更少的依賴等等。

這篇論文的主要貢獻是:

調查了使用多個授權的、支援WiFi的、用於DNN計算的移動設備在WLAN中構建計算集群的方法。攜帶了測試資料(例如圖像)的移動設備充當 Group Owner(GO),其他設備充當工作節點;

基於兩類DNN層的特性(卷積層和完全連接層)和不同移動設備的計算能力,提出兩種分區方案以最小化移動設備之間的資料傳送時間;

在計算集群中的每個移動設備上使用中介軟體來調度整個執行過程。

據我們所知,本文是第一篇利用 WLAN 中的各種移動設備作為DNN計算資源的論文,在執行並行性增強和資料傳輸方面有多項創新”。實驗結果表明,當工作節點數從2增加到4時,由於實現了高執行並行性,以及資料傳輸時間顯著減少,MoDNN可以加速DNN計算2.17-4.28X。

MoDNN的系統框架

圖1是MoDNN的系統框架概述,包括三個主要元件:

1)由GO和多個工作節點形成的本地分散式網路集群;

2)將DNN模型分割到工作節點上的模型處理器;

3)執行DNN的資料傳遞和識別服務的中介軟體。

圖1

我們注意到卷積層(CL)的計算成本主要取決於其輸入大小。因此,我們引入了Biased One-Dimensional Partition (BODP)的方案來劃分CL。相反,完全連接層(FL)的記憶體使用主要由層中的權重數量決定。鑒於此,專門針對稀疏FL引入了由Modified Spectral Co-Clustering (MSCC)和Fine-Grain CrossPartition(FGCP)組成的權重分割方案。值得注意的是,一旦DNN被訓練,DNN模型分區只需要在應用程式中執行一次。因此,只要訓練的DNN保持相同,分區成本可以由系統的執行來分攤。

更多關於系統實現和實驗設置的技術細節,請查閱論文。

結語

在這篇論文中,作者提出了 MoDNN 本地分散式移動計算系統,以實現 DNN 在移動平臺上的平行計算。由於卷積層和完全連接層被認為是影響總體執行時間的主要DNN組件,因此作者提出了幾種高級分區方案,即 BODP、MSCC 和 FGCP,以平衡每個工作節點的工作負載,最小化資料傳送時間。實驗表明,在DNN計算上,MoDNN 比線性性能加速表現更好,展現了DNN應用中移動平臺的巨大潛力。

170328”

3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括“BAT”在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文,查閱文字版大會實錄

Next Article
喜欢就按个赞吧!!!
点击关闭提示