專訪騰訊雲機器學習平臺技術負責人：揭秘騰訊深度學習平臺DI-X背後的秘密

今天，騰訊正式發佈了旗下深度學習平臺DI-X（Data Intelligence X），這是繼今年1月推出FPGA雲伺服器之後，騰訊在人工智慧領域的又一重大舉措。據雷鋒網瞭解，

DI-X將基於騰訊雲的大資料存儲與處理能力，為其用戶提供一站式的機器學習和深度學習服務。

馬化騰曾表示：“人工智慧、物聯網，甚至未來的無人駕駛、機器人等等，它的後臺的核心一定有一顆在雲端的大腦。 ”而對於騰訊而言，馬化騰所提及的雲端大腦正是構建與其騰訊雲服務之上。

隨著DI-X深度學習平臺已經上線，騰訊雲在人工智慧領域產品線已經覆蓋了IaaS基礎設施、AI平臺服務、AI基礎服務、AI應用服務以及垂直解決方案。

那麼最新推出的DI-X和騰訊去年開源的大資料框架Angel以及Mariana究竟有何聯繫？和其它平臺相比， DI-X又有何特點呢？為此，雷鋒網採訪了騰訊T4專家、騰訊雲機器學習平臺技術負責人Andy。

騰訊雲深度學習平臺DI-X誕生的背景雷鋒網：深度學習平臺專案是什麼時候開始啟動的？做DI-X的初衷是什麼？

騰訊內部有一個機器學習平臺，

從2015年的10月份就開始啟動了。因為公司有很多的演算法工程師和資料科學家，大家做的事情都很類似，迫切需要一個這樣的平臺來承載大家的需求，在上面方便的進行各種元件，演算法和模型的配置，快速的判斷模型效果，並應用到生產上。之前公司內部的大資料平臺，包括存儲，計算和分析……都已經日趨成熟了，在此之上，需要往上再走一步，進行機器學習和人工智慧，所以這樣的平臺就應運而生了。

平臺在內部運行1年左右之後，效果還不錯，於是騰訊雲就啟動了這個項目（DI-X），將內部平臺遷移到騰訊雲上。在今年的3月份上旬，

GPU雲伺服器產品也對外開放了，所以DI-X剛好和它對接上，主攻深度學習，希望能幫助到更多的騰訊雲的中小用戶，接入AI的快車道。

雷鋒網：DI-X專案由哪個團隊主導？現在有多少人？

專案是由SNG騰訊雲的資料產品團隊和TEG資料平臺部的機器學習團隊聯合而成，人不多，就十幾個。我們相信小團隊比較適合快速的反覆運算，產品現在還很年輕，需要快速的成長。

雷鋒網：在DI-X研發的過程中，遇到最大的挑戰是什麼？

機器學習平臺的設計，其實即便是Azure，都有很多不完善的地方，而這個平臺是一開始就是要服務內部使用者的，所以會面對很多用戶奇奇怪怪的需求，而這時如何去將這些需求化解為真正對平臺有通用意義的功能，

是需要有很強的理解力和把控力的，這個是對這個產品最大的挑戰之一。

這個平臺面對的另外一個挑戰，就是人工智慧和機器學習的發展太快了，很多新的功能和需求，不停的出現，也有新的更好的平臺值得借鑒。我們需要更快的走完前人走的路，還要跟上後來者的節奏，這個對團隊的快速反覆運算能力，也有很高的要求。

深度揭秘DI-X雷鋒網：DI-X的設計理念是什麼？和類似數加、Azure這樣的系統平臺有什麼區別？

DI-X的設計理念是打造一個一站式的機器學習平臺，集開發、調試、訓練、預測、部署於一體, 讓演算法工程師和資料科學家，無須關注機器學習（尤其是深度學習）的底層工程繁瑣的細節和資源，專注於模型和演算法調優。

DI-X的最終目的是成為一個時尚，強大而智慧的機器學習平臺，讓機器學習充滿樂趣，助力人工智慧。

伴隨著機器學習和人工智慧的發展，對騰訊這樣大體量的公司來說需要一個這樣的平臺來支援內部演算法工程師的需求。 DI-X目前已經在騰訊內部廣泛使用，一開始的目的也是支撐內部。隨著系統成熟，我們覺得可以通過騰訊雲，把這個能力開放出來。

整體上來看， DI-X和阿裡數加， Azure是競品，大家會各有所長。

雷鋒網：DI-X的架構有何特點？

主要體現在以下三個方面：

1. 易用性：視覺化的拖拽式任務流設計介面，配備了輸入、元件、演算法、模型、輸出5類別模組，靈活組合，可以做到無須任何編碼而完成複雜機器學習任務。

2. 靈活性：使用者既支援使用集成的機器學習演算法，也能在業界的各種機器學習元件上提交自己演算法。

3. 重點支持深度學習：目前支援TensorFlow，Caffe，Torch3種框架元件，後續會提供更多深度學習框架和針對性優化。

雷鋒網：去年12月，騰訊開放了自研的大資料平臺Angel，並且支援上述深度學習框架，那麼Angel對DI-X是否有深度的優化？DI-X、Angel與此前的Mariana深度學習平臺有何關係？

Angel是一個高緯度的機器學習框架，可以作為一個獨立的機器學習元件，也可以作為PS-Service（參數伺服器服務），支援Spark和其它深度學習框架。內部已經在試用了，開源之後也會發佈到DI-X上面，讓用戶方便的使用和接入。

Mariana主要是一個針對GPU，基於Caffe進行了資料並行和模型並行能力升級的一個分散式GPU計算框架，也是可以在DI-X上運行的一個框架元件。我們在內部版本的TeslaML上，都有這個元件的存在，但是對外的話，我們計畫是將它融合到Angel之中，作為一個整體開放。

雷鋒網：工業界和學術界，DI-X會更側重哪一塊？

DI-X在騰訊內部服務一段時間了，大部分的場景都是比較大的資料量的，所以會適合工業界一些。對於學術界是否合適，我覺得要用戶來評判。當然我們很歡迎學術界的朋友來試用。

雷鋒網：相比其它平臺，DI-X的優劣勢是什麼？在演算法和模型的訓練上有哪些突破？

DI-X目前剛剛推出，比起之前的產品有一些的時間距離，這是劣勢，也是優勢。相比之下，成熟度會弱一點，但是我們借鑒了之前產品的特點和經驗，並做了一些改進和創新。尤其是演算法的“小尾巴”設計上，和之前的產品設計都不太一樣，在模型的收藏，使用，預測，部署上，都會有很多的優勢，對深度學習更加的友好。

目前的各個深度學習元件，我們都是使用業界的開源最新版本，打通和COS的交互。後續在多機多卡的加速上，我們會借助Angel，提供更強的性能支援。

雷鋒網：DI-X主要解決了哪些問題，它的應用場景有哪些？目前DI-X給騰訊雲的業務做了哪些貢獻？

DI-X解決的問題，主要是用戶在騰訊雲有了資源之後，可以降低開發和使用機器學習的門檻。假如你購買了GPU的計算集群，你需要到上面自己去安裝各種元件，上傳作業，調度運行，關注告警；但是有了DI-X，你只要點幾下滑鼠，對接上GPU資源後，就能把一個深度學習演算法跑起來了，無論是你自己開發的還是業界現有的，這樣的一站式平臺，都能夠降低演算法工程師和資料科學家的門檻，他們不用操心很多工程上的細節，可以專心的調演算法和參數，把模型訓練好。

目前DI-X在騰訊內部，應用廣泛，例如遊戲流失率預測、用戶標籤傳播以及廣告點擊行為預測，這些應用背後都有DI-X的支援。以用戶行為預測為例，借助DI-X平臺，可以方便的拖拽出一個BRNN Encoder模型（雙向迴圈神經網路編碼器），從使用者自身和用戶圈子好友的行為序列資料中提取出基礎特徵，進行棧式自編碼（Stacked Auto-Encoder）模型的訓練，充分利用RNN的模型特點，得到比常規模型更精准的行為預測效果。

對於騰訊雲來說，DI-X是補上了重要的一環，讓騰訊雲的智慧雲能力，更加的完備，並充分發揮GPU計算集群的產品能力，是一對很好的搭檔產品。

雷鋒網：使用騰訊雲上的DI-X，對企業以及開發者來說意味著什麼？

使用DI-X，對於中小企業來說，某種程度上是開上了機器學習和人工智慧的快車道，這個是我們的期望。不需要重複的搭建類似的系統，可以一鍵式的完成演算法和模型的開發、調試、評估、部署和預測，快速的完成閉環，並對接生產系統。

未來，我們希望能夠幫助到更多的AI創業公司和客戶，降低他們的創業門檻，更快的專注於有創意的業務上，而無須擔心底層。另外我們也希望能夠將騰訊的成熟的資料，演算法，模型開放出來，説明到需要的小公司，讓它們能夠快速成長。

總結

當然，DI-X仍然不是一款成熟的產品，和現有的平臺相比顯然還有一定的差距，這對產品團隊的技術水準是一次考驗。Andy告訴雷鋒網，在後續的版本當中，他們還會做一系列的優化：

首先，會把其它的機器學習元件補齊，包括Spark、xgBoost，甚至於Python、R，我們都會一一加上，讓DI-X更加完整；

其次，要把深度學習的特性做進一步的產品優化，使得它能夠在模型的超參數調節，效果視覺化上，具有更好的競爭力。

毋庸置疑，人工智慧基礎服務已經成為互聯網巨頭必爭之地，作為騰訊“雲端大腦”的一部分，DI-X上線後的表現如何，我們拭目以待！

也能在業界的各種機器學習元件上提交自己演算法。