京東朱健談大數據即時處理架構的是與非

隨著雲計算和大資料時代的來臨，資料正在以前所未有的速度成為各個領域價值創造的核心驅動力。在此背景下，國內最受關注的資料庫技術盛會——2017第八屆中國資料庫技術大會(DTCC2017)在2017年5月11-13日如約而至。

▲京東大資料技術專家朱健發表精彩演講

DTCC2017大會首日，就吸引了眾多業內人士到場參加，其中即時計算技術作為首日的主要分論壇之一，給大家帶來了諸多乾貨，贏得了大家的一致好評。其中來自京東的大資料技術專家朱健為我們帶來了名為《大資料即時處理架構實踐》的技術分享，他認為在當今互聯網早已不是蠻荒生長的時代，各大公司也在自己的領域深耕細作，伴隨著市場的成熟，如何提供更好的服務、更快的資料決策，成為競爭的關鍵點。即時計算技術作為其中的一項關鍵技術，開始在業界廣泛流行。如何依據自己的業務，在眾多的即時計算技術中做出選擇，

以及如何處理即時計算中遇到的各種問題，保證資料的效率和正確，成為所有人都要面對的極具挑戰的工作。

在演講中，朱健首先從三個方面向大家簡單了介紹了一下他眼中的即時計算：他認為即時計算是對資料進行即時的流式處理，是業務發展和技術進步的必然需求，其關鍵點是分散式流式大資料和即時的處理。此外他提到和離線計算相比，即時計算和離線計算基本上一樣，只不過更快，其不擅長處理歷史資料的缺點正好能互相補充。而因為即時計算的地位和個性到共性的抽象的原因導致其比離線計算出現的晚。

隨後朱健對即時計算的要求進行了簡單的介紹，他認為即時計算在功能性上要至少具備MapRed。

性能上要具有高吞吐、低延遲的特點，其結果應該可信並具有高可靠性。並舉例進行了相關說明。

最後，朱健對即時計算的選擇方面提出了幾條建議，首先用戶要考慮的是是否真的需要即時計算，要考慮到即時計算的複雜性和價格昂貴的特點。功能性上要考慮多資料流程的支援、高階API。低延時和輸送量方面，大資料、秒級延遲不建議選用spark，可以考慮storm和flink。而在資料的準確性方面，使用者需要確定即時計算框架本身是夠支援exactly-once，輸入源手否支援exactly-once以及輸出元件是否支援exactly-once;此外在程式狀態管理上要依靠計算框架，會有載入延遲和升級風險，朱健還建議使用者自己實現外部狀態管理。

在面對程式異常處理和恢復方面，即時系統需要仔細設計和編碼，考慮程式如何處理異常程式，如果不能很好地處理，要做出相應的人工預案。

最後，朱健對即時計算的未來進行了展望並提出了需要改進的建議。他對為什麼即時框架已經做過的事情，我們實現的時候還需要再做提出質疑，並認為目前內置狀態管理方案不夠完美，在異常檢測和恢復方面沒有標準定義，也沒有程式介面，這些都是目前面臨且有待解決的問題。

資料驅動·價值發現

本屆DTCC大會為第八屆，本屆大會以“資料驅動·價值發現”為主題，彙集來自互聯網、電子商務、金融、電信、政府、行業協會等20多個領域的120多位技術專家，共同探討Oracle、MySQL、NoSQL、雲端資料庫、智慧資料平臺、區塊鏈、資料視覺化、深度學習等領域的前瞻性熱點話題與技術。

大會共設定2大主場和20個技術專場，吸引了5000多名IT人士參會，為資料庫人群、大資料從業人員、廣大互聯網人士及行業相關人士提供最具價值的交流平臺。