缺乏資料安全技術和急於求成是制約中國大資料公司做大的原因

近日，愛分析在京舉辦了2018·中國大資料高峰論壇。針對資料服務這一大資料行業重要細分領域，愛分析邀請了資料服務領域標杆公司TalkingData的創始人崔曉波進行主題演講。

會上，崔曉波就中美大資料市場差異與聯繫、資料智慧應用的演進路線、資料智慧的商業化落地等方面，展開深度講解。

現將TalkingData創始人崔曉波的主題演講實錄分享。

演講實錄

崔曉波：今天我分享的主題是“資料智慧應用和商業模式發展”。

資料智慧是在過去兩年裡面才提的一個詞，我堅信在未來的5到10年裡面是非常關鍵的詞，因為資料和智慧本身就是一體兩面，智慧離不開資料，資料也離不開智慧，如何運用好資料去創造智慧，這是企業在未來不斷探索的方向。

我從幾個方面講一下我們過去這幾年，在大資料，特別是資料服務這個領域裡面的探索和思考，以及我們看到的整個市場的狀態。

一、中美市場的差異與聯繫

中美大資料的異同和聯繫，用一句話概括就是，資料是連接中美智慧應用的橋樑。

2014年我們在矽谷設立了研發中心，對美國的投資也比較多，在這個過程中，我們發現很多有意思的事情。

我先舉兩個例子，前年和去年我們和Kaggle——世界上最大的資料科學社區——做過兩個活動，

第一個活動是我們提供中國脫敏的移動互聯網資料，希望全球的科學家幫我們預測使用者的人口統計學資訊，包括性別、年齡。大概有2600個團隊參加，為我們提供了約兩萬個模型。這裡很有意思，我們發現提交的模型中，有用我們的資料集預測中國經濟，比如用手機價位資訊計算中國GDP情況和經濟分佈情況，還有用資料來計算中國人的行為變化。

通過這樣一個實驗，可以知道資料的用法非常豐富，但既依賴於場景，又依賴於領域知識。所以中國人真正缺乏的是各個領域如金融、地產、零售、互聯網、工業裡的知識，我覺得這裡還需要很長的時間去探索。

最近我們又發佈了一個活動，

這個活動更有意思，我們提供了在反欺詐裡面碰到的一些問題和資料集，但很多在國外的資料科學家，他們沒有碰到過這麼大量級的資料集相關問題。所以中國應用領域已經走到了非常前沿的地方，但是我們缺乏技術和基礎設施。

過去幾年裡面大家提資料交易，政府也在籌建資料交易市場，但沒有解決根本的問題。

通過去年的網安法，還有我們最近和監管部門的交流可以確定，資料作為原材料是不能被交易的。

另外你會發現真正擁有資料的企業不願意把資料放出來，它的顧慮不是為了要壟斷，而是因為還有很多技術問題沒有被解決。什麼樣的技術問題沒有被解決?就是資料如何安全的被共用，

資料如何合規的問題。

資料安全完全不同於我們以前說的網路安全，因為以前我們對資料安全的理解只到這個層次，企業整個IT系統大概是由雲、IDC以及內部網路構成。所以在網路外面有一層邊界，企業要守住這個邊界，不能讓駭客進來。如果這一層邊界都有問題，或者是企業有內鬼，怎麼解決資料安全問題?而 Facebook資料安全投入是非常大的，也出現了非常新的資料，比如說我們看到一種技術，在閘道上的設備可以看到企業所有的資料流程動，這些資訊是如何從一個點到另外一個點，是如何流動被使用的。而在中國完全沒有積累，技術差距5到10年。

歐盟有史以來最嚴苛的個人隱私保護法GDPR在下個月就會正式實行,如果侵犯了歐盟成員國的個人隱私，罰金是企業全年收入的4%，或者2000萬歐元，取高值。所以沒有企業敢對這件事情不重視，並且企業會投入很多精力做這個事情。

我們也在解決這些問題，我們推了一個體系，就是在資料不流動的情況下也可以共用。因為以前解決不了這樣的問題，A和B合作，資料相互不願提供，很難達成合作。但如果找到一個方法，資料都不用出去，就能解決這個問題。

業務的問題要回歸技術，最終還是用技術本身去解決問題，這是中國企業所欠缺的。所以我覺得中國下一步資料服務就會被限制在技術上。

所以這是我們從美國能看到的。

二、我們看世界的角度將從實體物質化轉化為數位虛擬化

現在有很多做應用的公司，像Stitch Fix是服裝行業公司，你會發現它的公司裡面一半多是資料科學家，不是傳統的運營人員，他們每天就是用資料幫你選衣服，幫你優化供應鏈。

這是真正的一個大趨勢。

這一趨勢可以用一句話概括，我們看世界的角度將從實體物質化轉化為數位虛擬化。

Google在2014年、2015年就把大部分的資源投入到機器學習，Google的人告訴我未來一定是機器學習深度學習的時代，而在2016年就出現了阿爾法狗。

我一直在深思為什麼出現機器比人強的情況。大家研究技術都會知道阿爾法狗的核心是演算法模型，包括搜索、價值網路和策略網路，但是它的策略網路的平均值只有0.5幾，真正做決策的時候不如人，他能下過人就是因為它的蒙特卡洛樹搜索太厲害了，就是通過在虛擬世界裡面無盡的算力，達到機器學習的過程。

後來我去MIT見無人車領域的頂尖專家，問他無人駕駛L5技術到底需要幾年能成熟，他篤定的說十年左右，這是我聽到的最樂觀的估計。

阿爾法狗是把物理世界的問題數位虛擬化，之後就可以用不斷增長的電腦演算法去加速它的學習過程，達到能夠破局的效果。

但是在絕大部分領域做不到這一點，因為如果一個機器或者一個演算法不能幫人做決定，那麼對這個行業，第一沒有顛覆，第二沒有價值。

自動駕駛技術達到L5肯定就顛覆了原有行業，就是完全的自動駕駛，但是在L3以下就是輔助駕駛。在醫療領域，如果機器給出的結果真的能作為診斷結果，那也是顛覆，但是如果這個結果只能輔助人類，價值就有限。

要達到這個階段，所需要的時間遠比我們想像的要長。

所以現在大家對人工智慧過於樂觀，我相信未來幾年會有回落，不過技術本身是有價值的。

三、大資料通過四個步驟改造一個行業

我們再看一下行業，TalkingData成立了七年時間，服務了很多行業，我們可能是大資料公司裡面涉及行業最多的。從我們的角度來看，不管是哪一個行業，基本上都是這四個步驟。

1，業務資料化

2，應用場景化

3，流程自動化

4，決策智慧化

首先是業務資料化，我們進到很多傳統行業的時候，發現它本身的資料流程程沒有資料化，就是這個業務做得好還是不好，沒有一套資料體系、指標體系、方法論體系來管理。而業務資料化就是各種大資料技術，數倉、BI等這些技術攪合在一起的過程。

我們看到大量的企業還是用BI，用所謂的Smart BI這些技術去把企業整個的業務指標管理起來。但是從資料角度來看它能做的是什麼?是Alert，它可以報警和監控，它可以告訴你哪一個業務出問題了給你報警，更多的是這樣。

接下來到第二步，我們叫應用場景化，這裡特指資料應用的場景化，就是在完成資料化之後，考慮用什麼方法提升這些業務。用大資料的方法，用建模的方法，用機器學習的方法去做應用場景化，比如在行銷場景裡面，可以提出建議，是否在這樣的一個行銷活動裡面增加預算，是否應該投放這樣的人群。

坦率的說這個過程還是基於人工，基於很多的分析師對業務的瞭解或者是他的經驗，中國90%以上的企業還處於這樣的階段包括互聯網企業，而能否把自己的業務資料化，資料應用場景化，這是企業需要去面對的問題。

但是從去年下半年到今年，我們發現有一些頭部企業走到第三步，流程自動化，比如說我們現在服務的一些在零售業的頭部企業，有一家做餐飲的企業，他有一個50人的資料團隊，這是絕無僅有的，比很多做科技的公司投入都大。這50人的資料科學家，會做很多的資料預測，預測每天賣多少漢堡，賣多少咖啡。大家覺得這個事好像挺不靠譜的，但是實際上經過我們的幫助，它的準確率已經在95%以上，真的能預測出一個門店明天賣多少漢堡。這個過程需要用大量的資料，包括天氣、路況、客流、歷史交易等等。這個結果對它直接的影響是可以優化第二天排班、優化供應鏈情況，計算下來一年節省上億元費用，相當於一個邏輯演算法就上億。這個事情不是美國發生的，是在中國。

第四個就是決策智慧化，我們也為企業選址提供服務，因為對線下零售來說，店開在哪就百分之七八十決定了這個家店能不能成功。我們幫客戶做選址，它第一個要求我們去預測的是這家店未來三年的收入，它會把歷史上三年的資料給我們，但是不告訴我們整個交易情況，我們建模型，建了之後去優化這個模型，先準確的預測歷史，然後再預測新店未來三年的收入是多少，這已經自動化了，以前這個企業有200人的選址人員，現在只有20人，這是我們幫他優化的過程。

這幾步做完以後還有一些頭部企業走到下一步，這個叫效益數位化，就是企業完成自動化之後，就有了很強的資料能力，這時候企業就會想我這個能力能不能開放給別的企業，比如說把它做成一些指數，甚至把它做成智慧的APP，提供給我的供應商和我的下游，甚至把這個業務切出來，在產業鏈中覆蓋中小B。當然，這是TD正在做的一個邏輯。

四、資料智慧演進的三個階段

從我們的角度看資料智慧的演進分為三個階段。

第一個階段是Data到Analysis。我們有大量資料，然後幫開發者做分析，但是我們發現從資料到分析只是淺層次重複，無法形成閉環和帶來效益提升。現在也還有很多企業處於這個階段。

第二個階段是Data到Action。在第一個階段走不通的情況下，我們嘗試著往下一步走，看資料能做什麼，能不能優化廣告，能不能優化行銷。但是我們驗證了這步基本不可行，這在國外是可行的，但是在中國不可行，因為中國有太多的不透明，我們在一個線上網路上測試了很多，我們投進去時是對的，但是出來的結果就不行，就是那麼大的一個網路，也有很多的不透明的演算法，把你資料的演算法邏輯都抵消了，這是中國的現狀。

所以，現在越來越多的企業走到第三階段，Data到Data Science，我把資料變成資料模型，證明它在什麼地方對商業有價值。因為你比的不是最終效果，比的是過程，對企業來說，這個model比人工好，上了這套東西，以前能做50個產品，現在能做500個，這也是提升。

通過Data到Data Science形成閉環，依賴模型持續提升效果，現在是大家的共識。

五、資料服務價值長期才能顯現

時間關係，最後跟大家來解釋一下資料回報定律，資料回報定律是指在指數級世界裡，資料對企業商業價值的回報都是加速的，我們服務的所有企業都有這個趨勢。

第一年我們看不到資料對商業特別明顯的回報，這是因為這種回報的比例雖然很大，但是基礎太低，而大量企業在第二年，第三年的回報特別明顯。

我們很多的客戶現在和我們簽的全部都是分成協定，他多賣一件衣服、一個漢堡願意給我付錢，就是因為它們逐步發現，通過資料真的可以幫它每年省上億費用，或者帶來非常可觀的回報。

但我也有一點擔憂，現在很多的資料企業太急於求成，對客戶承諾說我三個月半年就可以幫你做什麼，我可以告訴你，這個很難做到，結果一定是兩三年以後才能顯現，這就是中國企業做不大的原因。

如果這一層邊界都有問題，或者是企業有內鬼，怎麼解決資料安全問題?而 Facebook資料安全投入是非常大的，也出現了非常新的資料，比如說我們看到一種技術，在閘道上的設備可以看到企業所有的資料流程動，這些資訊是如何從一個點到另外一個點，是如何流動被使用的。而在中國完全沒有積累，技術差距5到10年。