分散式資料分析與人工智慧平臺及演算法實踐

資料庫性能優化、雲時代的資料庫、NoSQL技術進展、大資料雲服務、資料分析與挖掘、機器學習……有別於“短暫”的技術分享會，由盛拓傳媒、IT168主辦的2017年中國資料庫技術大會(DTCC 2017)在會議的第二天依然乾貨滿滿。

隨著人機大戰逐漸滲透到我們的生活中，人工智慧已經成為膾炙人口的話題。深度學習作為人工智慧領域最廣泛的應用，數以萬計的資料從業者都通過講義、視頻等進行學習和應用。今天的資料分析與挖掘專場華為人工智慧技術專家金鑫就為我們帶來了《分散式資料分析與人工智慧平臺及演算法實踐》的演講。

深度學習的發展歷程

深度學習的發展可以追溯到1950，當時“電腦科學之父”及“人工智慧之父”英國數學家阿蘭·圖靈發佈了著名論文《機器會思考嗎?》,這篇論文被廣泛認定為深度學習的起源。金鑫認為從深度學習從起源發展到現在的半個多世紀大致可以分為三個階段：第一個階段是1950-1980+，小資料+複雜演算法，第二個階段是1990-2000+，大資料+簡單演算法，第三個階段2010到現在，大資料+複雜演算法。

在中小資料時代，傳統的機器學習研究並不把海量資料作為處理物件，很多演算法是為處理中小規模資料設計的，直接把這些演算法用於海量資料，效果可能很差，甚至可能用不起來。而到了大資料時代，新的資料種類不斷湧現，

對大資料集、高維資料的學習，演算法關注點轉移到分散式可擴展、有效利用非標記資料解決訓練資料品質問題(半監督學習)、提高學習結果泛化能力(集成學習)、不同領域進行知識遷移(遷移學習)、特徵自動學習(深度學習)等。

深度學習平臺發展演進到至今，

大致表現出了以下幾種趨勢：從單機到多機，計算能力提升;平臺化，視覺化，易用性提升;開源+閉研結合，依賴生態圈，構建關鍵競爭力。

分散式資料分析與人工智慧平臺

MIND是華為的一個人工智慧平臺項目，據金鑫介紹：該平臺收集了案例庫、問題單、產品資料、FAQ等海量資料，

整合深度學習、增強學習和專家知識，通過大資料分析與挖掘平臺為用戶提供深度洞察、最佳體驗、智慧運維以及最優調度。

面向ICT領域構建高效分散式大資料分析與人工智慧平臺，能夠支撐電信、IT、金融、大視頻等場景。分散式大資料分析與人工智慧平臺系統架構主要有5層：運行環境/作業系統/硬體平臺、資料處理層、分佈處理平臺、演算法框架以及智慧服務。

金鑫認為現在機器學習的演算法已成熟，隨平臺硬體演進持續並行加速，而深度學習演算法理論待突破，訓練和預測性能待進一步提升，圖計算、邏輯推理、啟發式演算法待分散式並行加速支撐大規模資料。構建端雲協同並行AI演算法庫和高性能數學庫，向下和硬體結合提升底層基礎數學庫並行性能、降低功耗;向上和智慧應用結合提升複雜場景AI演算法性能、自我調整能力。

▲分散式資料分析與人工智慧平臺應用

圖計算、邏輯推理、啟發式演算法待分散式並行加速支撐大規模資料。構建端雲協同並行AI演算法庫和高性能數學庫，向下和硬體結合提升底層基礎數學庫並行性能、降低功耗;向上和智慧應用結合提升複雜場景AI演算法性能、自我調整能力。

▲分散式資料分析與人工智慧平臺應用