您的位置:首頁>科技>正文

突破流計算極限挑戰的阿裡,將發力圖計算及大規模機器學習

近日, 體系結構頂級會議ASPLOS首次在中國舉辦, 阿裡巴巴副總裁、阿裡雲首席科學家周靖人發表主旨演講, 介紹了阿裡巴巴雲的大資料和AI計算平臺, 以及其中廣泛的產品和服務。 同時透露阿裡接下來將在圖計算和大規模機器學習領域進一步發力。

圖為周靖人演講現場

阿裡在流計算方面突破

隨著物聯網感測器、移動應用和線上服務的普及和廣泛應用, 越來越多的資料以流的形式源源不斷的產生。 基於資料流程的即時分析變得越來越重要, 例如即時化的商業決策依賴高時效性的報表, 線上服務優化需要動態捕捉使用者行為等。 這一系列應用的背後離不開大規模流計算平臺的支撐。 從系統架構角度, 海量資料流程輸入需要大規模集群, 7x24不間斷地連續計算, 同時滿足高吞吐和低延時。 大規模集群中各種軟、硬體故障和網路異常, 以及輸入流量和資料的動態變化等,

都會給流計算帶來極大的挑戰。 阿裡大資料平臺在2016年雙十一支撐了每秒近1億日誌事件的計算峰值, 在6小時內成功處理了100PB的資料, 在這一方面經驗頗豐。

阿裡在流計算方面突破

演講中, 周靖人以容錯為例介紹了阿裡系統設計中的一些關鍵技術。 所謂容錯, 就是當計算結點發生故障時, 由於資料流程的連續性, 對上下游都會產生影響, 同時計算狀態也會丟失。 相比離線計算, 複雜的系統依賴使得如何自動恢復流計算過程中的錯誤, 成為關鍵挑戰。

周靖人介紹說, 業界和開源的流計算系統, 往往以單一容錯策略為基礎來設計系統, 如輸入重算、全域快照和mini-batch。 而真實場景中的大規模流計算應用,

往往由多個相互關聯但對計算吞吐和延時要求不盡相同的部分組合而成。 例如某個高吞吐的輸入流和按小時更新的資料集合之間的關聯計算。 由此對不同部分的容錯需求就需要相應採用不同的策略, 而如何在同一系統設計中允許組合不同的策略, 是問題的關鍵。 阿裡在這方面做了很多創新的工作, 例如在上下游之間建立虛擬管道抽象, 將容錯設計和正確性分析與系統實現、優化機制解耦。 不但降低了系統的複雜性, 還允許系統根據場景, 靈活實現和組合多種策略, 應對大規模集群中各種複雜情況。

圖計算3大挑戰

據周靖人介紹, 圖計算是阿裡關注的重要技術之一, 可以將電商平臺、使用者產品、支付寶帳戶等大量資訊作為節點來建模處理,

基於此可以產生很豐富的分析場景, 當前圖計算已經在阿裡搜索推薦、反作弊、知識圖譜等領域大規模應用。

靖人指出, 由於實體模型中, 存在許多關係以及數十億的結點和邊, 並且以很快的速度動態更新, 即時併發更新圖資料的同時進行複雜的圖分析是留給工業界和學術界的課題。 具體來說存在3個方向的挑戰。

挑戰1:圖視覺化, 即如何有效地將圖背後的特徵和資訊展現出來, 更好地與人交互, 輔助推理、分析和決策。

挑戰2:模式匹配, 根據業務的特徵, 在複雜關係網絡中定義並識別核心模式, 並在大規模圖中實現快速匹配。 常用的場景有反欺詐、風險控制和ID映射等等。

挑戰3:處理快速變化的圖, 也就是當圖節點和邊動態更新下的圖計算問題。

此外, 如何將圖計算和機器學習結合, 利用人的線上行為模式來進一步提高推薦、搜索等效果, 也是阿裡技術人員正在解決的難題。

周靖人認為, 阿裡機器學習的優勢來源於對億萬資料樣本和特徵的高效利用, 阿裡的伺服器架構就是為了處理如此龐大的模型和數以億計的參數而開發的。 “目前阿裡大規模機器學習平臺, 可以統一支援深度學習模型訓練以及模型更新, 此外我們也建設了CPU、GPU、FPGA異構計算平臺, 可以針對不同業務特點做機器學習的計算優化”。

據知情人士透露, 阿裡正在和知名高校在圖計算和大規模機器學習領域搭建合作平臺, 希望和學界一起推動這些領域研究的快速發展。外界分析,這也是阿裡此前公佈的“NASA”計畫中的重要技術佈局之一。

希望和學界一起推動這些領域研究的快速發展。外界分析,這也是阿裡此前公佈的“NASA”計畫中的重要技術佈局之一。

Next Article
喜欢就按个赞吧!!!
点击关闭提示