華文網

騰訊雲機器學習平臺技術負責人黃明,詳解DI-X 深度學習平臺

機器之心原創

作者:高靜宜

3 月 28 日,騰訊雲宣佈推出深度學習平臺 DI-X(Data Intelligence X),為機器學習、深度學習使用者提供一站式服務,為其在 AI 領域的探索降低門檻並提供最流暢的體驗。DI-X 平臺基於騰訊雲的大資料存儲與處理能力,

集成 Caffe、TensorFlow、Torch 主流深度學習框架,主打行雲流水的拖拽式操作,具備強大的業內開源及騰訊自研演算法庫和模型庫。DI-X 平臺的推出是騰訊在 AI 領域長線佈局中不可缺少的一環,也宣告騰訊雲在 AI 佈局的全面加速。

人工智慧學習平臺已然成為巨頭公司的必爭之地。在 3 月 29 日的雲棲大會上,阿裡雲也正式推出了升級版機器學習平臺 PAI 2.0。那麼,DI-X 平臺可以為用戶帶來哪些便利,

有怎樣的戰略意義,在激烈的商業競爭和技術競賽中如何突出重圍?機器之心對騰訊 T4 專家、騰訊雲機器學習平臺技術負責人黃明進行了採訪,從中得到了答案。

機器之心:深度學習平臺不是一個新鮮概念,國內外一些公司早已嘗試研發深度學習平臺,部分公司已見成效。能否介紹一下為什麼選擇在這個時候推出這款基於騰訊雲的深度學習平臺 DI-X 嗎?

黃明:與騰訊雲許多優勢產品與能力一樣,DI-X 平臺經歷了由內而外的輸出過程。隨著機器學習與人工智慧的發展,騰訊內部需要一個平臺,支援內部演算法工程師和資料科學家的迫切需求,DI-X 應運而生,並成為主要機器學習平臺,每天有上萬的機器學習任務流,在上面運行各種演算法,並訓練出各種各樣的模型。歷經一年多的實戰。隨著系統的成熟和外部需求的增加,騰訊雲決定對外開放這一能力。

機器之心:騰訊雲一直致力於降低人工智慧雲服務的使用門檻,曾推出大資料服務平臺數智方略,並於去年年底發佈萬象優圖服務。推出騰訊雲深度學習平臺的戰略目標是怎樣的?

黃明:隨著 DI-X 平臺的發佈,騰訊雲在 AI 領域的全線佈局也浮出水面:從 IaaS 基礎設施、AI 平臺服務、AI 基礎服務、AI 應用服務,到垂直行業解決方案,均有完善的產品及服務覆蓋。馬化騰曾表示:「人工智慧、物聯網,

甚至未來的無人駕駛、機器人等等,它的後臺的核心一定有一顆在雲端的大腦。」DI-X 平臺的推出,為企業構建「雲上大腦」提供最強助力,此舉也宣告騰訊雲在 AI 的佈局全面提速。特別是騰訊雲的中小用戶,可以快速接入 AI 的快車道。

騰訊雲 AI 產品服務矩陣圖(2017 年 3 月)

機器之心:能否介紹一下 DI-X 的研發團隊?整個研發歷經了怎樣的過程?在技術層面來說,深度學習雲平臺的研發難點在哪裡?又是如何解決的?

黃明:DI-X 專案是由騰訊雲的資料產品團隊和騰訊資料平臺部的機器學習團隊聯合而成,人不多,就十幾個。我們相信小團隊比較進行適合快速的反覆運算,產品現在還很年輕,需要快速的成長。整個項目是在騰訊內部先鍛煉了 1 年多,快速反覆運算了 3 個大版本,十幾個小版本,有了一定的用戶基礎和不錯的口碑後,再到雲上來的,我們希望把騰訊的 AI 能力開放給更多的中小公司。

這個平臺是一開始就是要服務內部使用者的,所以會面對很多用戶奇奇怪怪的需求,而這時如何去將這些需求,化解為真正對平臺有通用意義的功能,是需要有很強的理解力和把控力的,這個是對這個產品最大的挑戰之一。

這個平臺面對的另外一個挑戰,就是機器學習,尤其是人工智慧和深度學習發展太快了,很多新的功能和需求,不停的出現,也有新的更好的平臺值得借鑒。我們需要更快的走完前人走的路,還要跟上後來者的節奏,這個對團隊的快速反覆運算能力,也有很高的要求。

機器之心:有一個用戶非常關心的問題:目前 DI-X 平臺支援哪些深度學習模型框架?平臺相容性如何?

黃明:DI-X 第一個版本支持 TensorFlow,Caffe,Torch 這三個深度學習框架,都會是和開源的最新版本一致和相容,主要的改動是無縫對接了騰訊雲的物件存儲 COS,可以將其之上的圖片,語音,視頻等作為輸入資料來源,供元件和演算法直接訓練,生成模型,釋放使用者的資料資源潛力。另外第一個版本,不會支持多機多卡的並行化,預計會在第三個版本支持。

機器之心:可否介紹一下此次推出的騰訊雲深度平臺 DI-X 具備怎樣的亮點?在激烈的行業競爭中,DI-X 平臺具備哪些優勢?可以實現哪些功能?解決哪些問題?

黃明:DI-X 平臺目前有這樣的產品特點:

深度學習支持:目前支援 TensorFlow,Caffe,Torch 三種框架元件,後續會提供更多深度學習框架和針對性優化

易用性:視覺化的拖拽式任務流設計介面,配備了輸入,元件,演算法,模型,輸出五類別模組,靈活組合,可以做到無須任何編碼而完成複雜機器學習任務

靈活性:使用者既能使用內置的機器學習演算法,也能在各種深度學習元件上提交自己演算法

集成性:與騰訊雲的物件存儲(COS),計算(GPU 計算平臺)無縫對接,公有雲用戶可輕鬆閉環

全流程:集模型訓練,預測,部署的功能於一體,並提供公共資料集和業界模型,説明使用者快速釋放資料價值

我們希望,用戶可以在這個平臺上,完成深度學習的模型訓練,調優,部署,預測等各種功能,體驗一站式的深度學習服務

機器之心:DI-X 平臺面向什麼樣的用戶群?如何滿足不同領域用戶的需求?

黃明:DI-X 面對的是有一定深度學習基礎知識的用戶,有一定的門檻。使用者可能在物件存儲 COS 上,已經存了很多的非結構化資料(圖片,語音,視頻),這些都是寶貴的資產,想要進行一些人工智慧方面的研究和工作,這時,用戶可以先購買騰訊雲的 GPU 計算平臺,然後通過 DI-X,非常快速的開始跑深度學習的演算法,完全跳過繁瑣的配置過程。

另外,DI-X 當然內置了一些常用的深度學習演算法,公開資料集和業界模型,方便使用者直接拖出來,簡單配置即可運行,這樣可以更加快速驗證一些有趣的想法。這些都是不限制領域的,通用的,相信能夠滿足大部分用戶的需求。

機器之心:能否具體闡述一下用戶在使用 DI-X 平臺的過程中,會帶來哪些不同於使用以往雲平臺的體驗?

黃明:DI-X 是個比較新的平臺,所以參考了很多現有平臺的設計。其中有一些是之前的產品就有的,例如拖拽式的視覺化設計,這個整體理念是一致的。但是有一些特色功能,是目前其他平臺沒有或者做得比較弱的,例如:

1. 比較靈活

各種框架元件都支援使用者上傳自己的腳本和模型網路結構,不過多的約束用戶。在任務流的設計上,也主張讓用戶有更多的自主權,不做過多的約束。當然,資料流程我們是支持的。

2. 支援多實例運行

每個任務流都可以多實例運行的,當然了,會有實例數的約束。實例的啟動支援週期性調度和指定時間調度等多種方式,而且每個實例都有一個快照頁面,能方便的查看各個實例的運行情況和結果。

3. 能進行自動化參數調節

支持多個參數(目前最大五個)按照一定的初始值,步長,終值進行迴圈組合,動態替換輸入框和模型網路檔中的參數,自動化跑多個實例,並能同時展現多個模型的最終效果,方便用戶比較。

4. 模型的訓練和使用

演算法和模型上,DI-X 有個「小尾巴」的設計,不同于現有的平臺,對深度學習的演算法和模型,有更好的可用性和擴展性,能更好的用於模型的預測。

以上的體驗,都是在內部反復打磨過,在細節上花了很多的心思,希望能夠給外部用戶,帶來一些不一樣的感覺。

機器之心:雲平臺安全問題一直是用戶關注的焦點,DI-X 平臺為保障資料和代碼機密性做出了怎樣的努力?

黃明:DI-X 的底層是基於 Docker 改進的,所以使用者之間的進程和訪問,有著良好的隔離,物件存儲 COS 的資料訪問也是獨立的,不會有代碼洩漏和資料洩漏的風險。

機器之心:深度學習作為近年來的主流人工智慧演算法,是國內外互聯網巨頭公司爭相部署的重點領域。在 2014 年,騰訊就曾推出了一款深度學習平臺 Mariana,包括針對 DNN 的 GPU 資料並行,CNN 的 GPU 資料並行和模型並行,DNN GPU 集群的三個框架。那麼這次所推出的基於騰訊雲的深度平臺與 Mariana 平臺有什麼聯繫?對於騰訊在深度學習領域的戰略佈局有什麼意義?未來在這個領域又有怎樣的推進計畫?

黃明:Mariana 是在內部 DI-X 上,也是深度學習的一個元件,後續我們會整合到之前宣佈要開源的 Angel 框架中,一起發佈。DI-X 在騰訊的深度學習領域佈局中是重要的一環,它讓中小用戶可以在騰訊雲之上,輕鬆自主的開發和部署他們的深度學習演算法和模型,接入 AI 的快車道。而騰訊雲後續也可以在這個平臺上,進一步開放更多的優秀演算法和模型,提供全面的 AI 服務。

機器之心:這款深度學習平臺還有哪些需要優化和改善的地方?未來打算如何解決?

黃明:DI-X 是很新的一個平臺,深度學習和人工智慧也都在飛速發展中,有很多的東西需要改進,例如視覺化的定義模型的網路結構等。未來我們會快速的反覆運算和更新,來滿足用戶的需求。

機器之心:今年 1 月 20 日,騰訊就看中 FPGA 在實現深度學習技術的巨大潛力,推出國內首款 FPGA 雲伺服器,從底層加速雲計算在各場景中的應用,引起業內熱議。目前,用戶對於 FPGA 雲伺服器的使用效果及反響如何?

黃明:用戶的反響非常好,主要來自幾個方面:首先,試用成本低,可以按需購買 FPGA 雲伺服器,不用再投入大量資金購置物理伺服器;其次,部署時間短,以前部署開發的時間從數年或數月縮短到數天;最後,運維成本低,由騰訊雲負責了運維的工作,用戶降低了維護 FPGA 的人力和成本。

機器之心:騰訊雲的企業客戶可以按需付費使用 FPGA,那麼一個典型客戶一年大概需要花費多少錢?相比以往,有成本優勢嗎?

黃明:通過 FPGA 雲伺服器,企業可以進行 FPGA 硬體程式設計,可將性能提升至通用 CPU 伺服器的 30 倍以上,而只需支付相當於通用 CPU 約 40% 的費用。騰訊雲是國內首家在雲端開放 FPGA 計算服務的雲服務商。

機器之心:開放 FPGA 使用申請的進展如何?

黃明

機器之心:騰訊雲將 FPGA 部署時間從數月縮短到數分鐘,能否分享一下這樣的一個突破性進展背後解決了哪些技術難題?

黃明:騰訊雲主要解決了 FPGA 的 3 項技術難題:

將 FPGA 設備規格精簡到幾種,減少用戶部署時的移植開發。

FPGA 開發可分為平臺和業務兩部分內容。騰訊雲提供通用、可靠的平臺部分。平臺部分包括 PCIE、DMA、DDR 訪問等硬體邏輯,驅動和應用軟體程式設計 API 等軟體部分。使用者只需要關注業務部分的軟體實現,減少了平臺部分的工作和調試時間。

用戶可以在騰訊雲上將部署好的環境打包成鏡像,借助騰訊雲的平臺一鍵部署。

快速反覆運算了 3 個大版本,十幾個小版本,有了一定的用戶基礎和不錯的口碑後,再到雲上來的,我們希望把騰訊的 AI 能力開放給更多的中小公司。

這個平臺是一開始就是要服務內部使用者的,所以會面對很多用戶奇奇怪怪的需求,而這時如何去將這些需求,化解為真正對平臺有通用意義的功能,是需要有很強的理解力和把控力的,這個是對這個產品最大的挑戰之一。

這個平臺面對的另外一個挑戰,就是機器學習,尤其是人工智慧和深度學習發展太快了,很多新的功能和需求,不停的出現,也有新的更好的平臺值得借鑒。我們需要更快的走完前人走的路,還要跟上後來者的節奏,這個對團隊的快速反覆運算能力,也有很高的要求。

機器之心:有一個用戶非常關心的問題:目前 DI-X 平臺支援哪些深度學習模型框架?平臺相容性如何?

黃明:DI-X 第一個版本支持 TensorFlow,Caffe,Torch 這三個深度學習框架,都會是和開源的最新版本一致和相容,主要的改動是無縫對接了騰訊雲的物件存儲 COS,可以將其之上的圖片,語音,視頻等作為輸入資料來源,供元件和演算法直接訓練,生成模型,釋放使用者的資料資源潛力。另外第一個版本,不會支持多機多卡的並行化,預計會在第三個版本支持。

機器之心:可否介紹一下此次推出的騰訊雲深度平臺 DI-X 具備怎樣的亮點?在激烈的行業競爭中,DI-X 平臺具備哪些優勢?可以實現哪些功能?解決哪些問題?

黃明:DI-X 平臺目前有這樣的產品特點:

深度學習支持:目前支援 TensorFlow,Caffe,Torch 三種框架元件,後續會提供更多深度學習框架和針對性優化

易用性:視覺化的拖拽式任務流設計介面,配備了輸入,元件,演算法,模型,輸出五類別模組,靈活組合,可以做到無須任何編碼而完成複雜機器學習任務

靈活性:使用者既能使用內置的機器學習演算法,也能在各種深度學習元件上提交自己演算法

集成性:與騰訊雲的物件存儲(COS),計算(GPU 計算平臺)無縫對接,公有雲用戶可輕鬆閉環

全流程:集模型訓練,預測,部署的功能於一體,並提供公共資料集和業界模型,説明使用者快速釋放資料價值

我們希望,用戶可以在這個平臺上,完成深度學習的模型訓練,調優,部署,預測等各種功能,體驗一站式的深度學習服務

機器之心:DI-X 平臺面向什麼樣的用戶群?如何滿足不同領域用戶的需求?

黃明:DI-X 面對的是有一定深度學習基礎知識的用戶,有一定的門檻。使用者可能在物件存儲 COS 上,已經存了很多的非結構化資料(圖片,語音,視頻),這些都是寶貴的資產,想要進行一些人工智慧方面的研究和工作,這時,用戶可以先購買騰訊雲的 GPU 計算平臺,然後通過 DI-X,非常快速的開始跑深度學習的演算法,完全跳過繁瑣的配置過程。

另外,DI-X 當然內置了一些常用的深度學習演算法,公開資料集和業界模型,方便使用者直接拖出來,簡單配置即可運行,這樣可以更加快速驗證一些有趣的想法。這些都是不限制領域的,通用的,相信能夠滿足大部分用戶的需求。

機器之心:能否具體闡述一下用戶在使用 DI-X 平臺的過程中,會帶來哪些不同於使用以往雲平臺的體驗?

黃明:DI-X 是個比較新的平臺,所以參考了很多現有平臺的設計。其中有一些是之前的產品就有的,例如拖拽式的視覺化設計,這個整體理念是一致的。但是有一些特色功能,是目前其他平臺沒有或者做得比較弱的,例如:

1. 比較靈活

各種框架元件都支援使用者上傳自己的腳本和模型網路結構,不過多的約束用戶。在任務流的設計上,也主張讓用戶有更多的自主權,不做過多的約束。當然,資料流程我們是支持的。

2. 支援多實例運行

每個任務流都可以多實例運行的,當然了,會有實例數的約束。實例的啟動支援週期性調度和指定時間調度等多種方式,而且每個實例都有一個快照頁面,能方便的查看各個實例的運行情況和結果。

3. 能進行自動化參數調節

支持多個參數(目前最大五個)按照一定的初始值,步長,終值進行迴圈組合,動態替換輸入框和模型網路檔中的參數,自動化跑多個實例,並能同時展現多個模型的最終效果,方便用戶比較。

4. 模型的訓練和使用

演算法和模型上,DI-X 有個「小尾巴」的設計,不同于現有的平臺,對深度學習的演算法和模型,有更好的可用性和擴展性,能更好的用於模型的預測。

以上的體驗,都是在內部反復打磨過,在細節上花了很多的心思,希望能夠給外部用戶,帶來一些不一樣的感覺。

機器之心:雲平臺安全問題一直是用戶關注的焦點,DI-X 平臺為保障資料和代碼機密性做出了怎樣的努力?

黃明:DI-X 的底層是基於 Docker 改進的,所以使用者之間的進程和訪問,有著良好的隔離,物件存儲 COS 的資料訪問也是獨立的,不會有代碼洩漏和資料洩漏的風險。

機器之心:深度學習作為近年來的主流人工智慧演算法,是國內外互聯網巨頭公司爭相部署的重點領域。在 2014 年,騰訊就曾推出了一款深度學習平臺 Mariana,包括針對 DNN 的 GPU 資料並行,CNN 的 GPU 資料並行和模型並行,DNN GPU 集群的三個框架。那麼這次所推出的基於騰訊雲的深度平臺與 Mariana 平臺有什麼聯繫?對於騰訊在深度學習領域的戰略佈局有什麼意義?未來在這個領域又有怎樣的推進計畫?

黃明:Mariana 是在內部 DI-X 上,也是深度學習的一個元件,後續我們會整合到之前宣佈要開源的 Angel 框架中,一起發佈。DI-X 在騰訊的深度學習領域佈局中是重要的一環,它讓中小用戶可以在騰訊雲之上,輕鬆自主的開發和部署他們的深度學習演算法和模型,接入 AI 的快車道。而騰訊雲後續也可以在這個平臺上,進一步開放更多的優秀演算法和模型,提供全面的 AI 服務。

機器之心:這款深度學習平臺還有哪些需要優化和改善的地方?未來打算如何解決?

黃明:DI-X 是很新的一個平臺,深度學習和人工智慧也都在飛速發展中,有很多的東西需要改進,例如視覺化的定義模型的網路結構等。未來我們會快速的反覆運算和更新,來滿足用戶的需求。

機器之心:今年 1 月 20 日,騰訊就看中 FPGA 在實現深度學習技術的巨大潛力,推出國內首款 FPGA 雲伺服器,從底層加速雲計算在各場景中的應用,引起業內熱議。目前,用戶對於 FPGA 雲伺服器的使用效果及反響如何?

黃明:用戶的反響非常好,主要來自幾個方面:首先,試用成本低,可以按需購買 FPGA 雲伺服器,不用再投入大量資金購置物理伺服器;其次,部署時間短,以前部署開發的時間從數年或數月縮短到數天;最後,運維成本低,由騰訊雲負責了運維的工作,用戶降低了維護 FPGA 的人力和成本。

機器之心:騰訊雲的企業客戶可以按需付費使用 FPGA,那麼一個典型客戶一年大概需要花費多少錢?相比以往,有成本優勢嗎?

黃明:通過 FPGA 雲伺服器,企業可以進行 FPGA 硬體程式設計,可將性能提升至通用 CPU 伺服器的 30 倍以上,而只需支付相當於通用 CPU 約 40% 的費用。騰訊雲是國內首家在雲端開放 FPGA 計算服務的雲服務商。

機器之心:開放 FPGA 使用申請的進展如何?

黃明

機器之心:騰訊雲將 FPGA 部署時間從數月縮短到數分鐘,能否分享一下這樣的一個突破性進展背後解決了哪些技術難題?

黃明:騰訊雲主要解決了 FPGA 的 3 項技術難題:

將 FPGA 設備規格精簡到幾種,減少用戶部署時的移植開發。

FPGA 開發可分為平臺和業務兩部分內容。騰訊雲提供通用、可靠的平臺部分。平臺部分包括 PCIE、DMA、DDR 訪問等硬體邏輯,驅動和應用軟體程式設計 API 等軟體部分。使用者只需要關注業務部分的軟體實現,減少了平臺部分的工作和調試時間。

用戶可以在騰訊雲上將部署好的環境打包成鏡像,借助騰訊雲的平臺一鍵部署。