您的位置:首頁>科技>正文

缺乏資料安全技術和急於求成是制約中國大資料公司做大的原因

近日, 愛分析在京舉辦了2018·中國大資料高峰論壇。 針對資料服務這一大資料行業重要細分領域, 愛分析邀請了資料服務領域標杆公司TalkingData的創始人崔曉波進行主題演講。

會上, 崔曉波就中美大資料市場差異與聯繫、資料智慧應用的演進路線、資料智慧的商業化落地等方面, 展開深度講解。

現將TalkingData創始人崔曉波的主題演講實錄分享。

演講實錄

崔曉波:今天我分享的主題是“資料智慧應用和商業模式發展”。

資料智慧是在過去兩年裡面才提的一個詞, 我堅信在未來的5到10年裡面是非常關鍵的詞, 因為資料和智慧本身就是一體兩面, 智慧離不開資料, 資料也離不開智慧, 如何運用好資料去創造智慧, 這是企業在未來不斷探索的方向。

我從幾個方面講一下我們過去這幾年, 在大資料, 特別是資料服務這個領域裡面的探索和思考, 以及我們看到的整個市場的狀態。

一、中美市場的差異與聯繫

中美大資料的異同和聯繫, 用一句話概括就是, 資料是連接中美智慧應用的橋樑 。

2014年我們在矽谷設立了研發中心, 對美國的投資也比較多, 在這個過程中, 我們發現很多有意思的事情。

我先舉兩個例子, 前年和去年我們和Kaggle——世界上最大的資料科學社區——做過兩個活動,

第一個活動是我們提供中國脫敏的移動互聯網資料, 希望全球的科學家幫我們預測使用者的人口統計學資訊, 包括性別、年齡。 大概有2600個團隊參加, 為我們提供了約兩萬個模型。 這裡很有意思, 我們發現提交的模型中, 有用我們的資料集預測中國經濟, 比如用手機價位資訊計算中國GDP情況和經濟分佈情況, 還有用資料來計算中國人的行為變化。

通過這樣一個實驗, 可以知道資料的用法非常豐富, 但既依賴於場景, 又依賴於領域知識。 所以中國人真正缺乏的是各個領域如金融、地產、零售、互聯網、工業裡的知識, 我覺得這裡還需要很長的時間去探索。

最近我們又發佈了一個活動,

這個活動更有意思, 我們提供了在反欺詐裡面碰到的一些問題和資料集, 但很多在國外的資料科學家, 他們沒有碰到過這麼大量級的資料集相關問題。 所以中國應用領域已經走到了非常前沿的地方, 但是我們缺乏技術和基礎設施。

過去幾年裡面大家提資料交易, 政府也在籌建資料交易市場, 但沒有解決根本的問題。

通過去年的網安法, 還有我們最近和監管部門的交流可以確定, 資料作為原材料是不能被交易的。

另外你會發現 真正擁有資料的企業不願意把資料放出來, 它的顧慮不是為了要壟斷, 而是因為還有很多技術問題沒有被解決。 什麼樣的技術問題沒有被解決?就是資料如何安全的被共用,

資料如何合規的問題 。

資料安全完全不同於我們以前說的網路安全, 因為以前我們對資料安全的理解只到這個層次, 企業整個IT系統大概是由雲、IDC以及內部網路構成。 所以在網路外面有一層邊界, 企業要守住這個邊界, 不能讓駭客進來。 如果這一層邊界都有問題,或者是企業有內鬼,怎麼解決資料安全問題?而 Facebook資料安全投入是非常大的,也出現了非常新的資料,比如說我們看到一種技術,在閘道上的設備可以看到企業所有的資料流程動,這些資訊是如何從一個點到另外一個點,是如何流動被使用的。而在中國完全沒有積累,技術差距5到10年。

歐盟有史以來最嚴苛的個人隱私保護法GDPR在下個月就會正式實行,如果侵犯了歐盟成員國的個人隱私,罰金是企業全年收入的4%,或者2000萬歐元,取高值。所以沒有企業敢對這件事情不重視,並且企業會投入很多精力做這個事情。

我們也在解決這些問題,我們推了一個體系,就是在資料不流動的情況下也可以共用。因為以前解決不了這樣的問題,A和B合作,資料相互不願提供,很難達成合作。但如果找到一個方法,資料都不用出去,就能解決這個問題。

業務的問題要回歸技術,最終還是用技術本身去解決問題,這是中國企業所欠缺的。所以我覺得中國下一步資料服務就會被限制在技術上。

所以這是我們從美國能看到的。

二、我們看世界的角度將從實體物質化轉化為數位虛擬化

現在有很多做應用的公司,像Stitch Fix是服裝行業公司,你會發現它的公司裡面一半多是資料科學家,不是傳統的運營人員,他們每天就是用資料幫你選衣服,幫你優化供應鏈。

這是真正的一個大趨勢。

這一趨勢可以用一句話概括,我們看世界的角度將從實體物質化轉化為數位虛擬化。

Google在2014年、2015年就把大部分的資源投入到機器學習,Google的人告訴我未來一定是機器學習深度學習的時代,而在2016年就出現了阿爾法狗。

我一直在深思為什麼出現機器比人強的情況。大家研究技術都會知道阿爾法狗的核心是演算法模型,包括搜索、價值網路和策略網路,但是它的策略網路的平均值只有0.5幾,真正做決策的時候不如人,他能下過人就是因為它的蒙特卡洛樹搜索太厲害了,就是通過在虛擬世界裡面無盡的算力,達到機器學習的過程。

後來我去MIT見無人車領域的頂尖專家,問他無人駕駛L5技術到底需要幾年能成熟,他篤定的說十年左右,這是我聽到的最樂觀的估計。

阿爾法狗是把物理世界的問題數位虛擬化,之後就可以用不斷增長的電腦演算法去加速它的學習過程,達到能夠破局的效果。

但是在絕大部分領域做不到這一點,因為如果一個機器或者一個演算法不能幫人做決定,那麼對這個行業,第一沒有顛覆,第二沒有價值。

自動駕駛技術達到L5肯定就顛覆了原有行業,就是完全的自動駕駛,但是在L3以下就是輔助駕駛。在醫療領域,如果機器給出的結果真的能作為診斷結果,那也是顛覆,但是如果這個結果只能輔助人類,價值就有限。

要達到這個階段,所需要的時間遠比我們想像的要長。

所以現在大家對人工智慧過於樂觀,我相信未來幾年會有回落,不過技術本身是有價值的。

三、大資料通過四個步驟改造一個行業

我們再看一下行業,TalkingData成立了七年時間,服務了很多行業,我們可能是大資料公司裡面涉及行業最多的。從我們的角度來看,不管是哪一個行業,基本上都是這四個步驟。

1, 業務資料化

2, 應用場景化

3, 流程自動化

4, 決策智慧化

首先是 業務資料化 ,我們進到很多傳統行業的時候,發現它本身的資料流程程沒有資料化,就是這個業務做得好還是不好,沒有一套資料體系、指標體系、方法論體系來管理。而業務資料化就是各種大資料技術,數倉、BI等這些技術攪合在一起的過程。

我們看到大量的企業還是用BI,用所謂的Smart BI這些技術去把企業整個的業務指標管理起來。但是從資料角度來看它能做的是什麼?是Alert,它可以報警和監控,它可以告訴你哪一個業務出問題了給你報警,更多的是這樣。

接下來到第二步,我們叫 應用場景化 ,這裡特指資料應用的場景化,就是在完成資料化之後,考慮用什麼方法提升這些業務。用大資料的方法,用建模的方法,用機器學習的方法去做應用場景化,比如在行銷場景裡面,可以提出建議,是否在這樣的一個行銷活動裡面增加預算,是否應該投放這樣的人群。

坦率的說這個過程還是基於人工,基於很多的分析師對業務的瞭解或者是他的經驗,中國90%以上的企業還處於這樣的階段包括互聯網企業,而能否把自己的業務資料化,資料應用場景化,這是企業需要去面對的問題。

但是從去年下半年到今年,我們發現有一些頭部企業走到第三步, 流程自動 化,比如說我們現在服務的一些在零售業的頭部企業,有一家做餐飲的企業,他有一個50人的資料團隊,這是絕無僅有的,比很多做科技的公司投入都大。這50人的資料科學家,會做很多的資料預測,預測每天賣多少漢堡,賣多少咖啡。大家覺得這個事好像挺不靠譜的,但是實際上經過我們的幫助,它的準確率已經在95%以上,真的能預測出一個門店明天賣多少漢堡。這個過程需要用大量的資料,包括天氣、路況、客流、歷史交易等等。這個結果對它直接的影響是可以優化第二天排班、優化供應鏈情況,計算下來一年節省上億元費用,相當於一個邏輯演算法就上億。這個事情不是美國發生的,是在中國。

第四個就是決策智慧化,我們也為企業選址提供服務,因為對線下零售來說,店開在哪就百分之七八十決定了這個家店能不能成功。我們幫客戶做選址,它第一個要求我們去預測的是這家店未來三年的收入,它會把歷史上三年的資料給我們,但是不告訴我們整個交易情況,我們建模型,建了之後去優化這個模型,先準確的預測歷史,然後再預測新店未來三年的收入是多少,這已經自動化了,以前這個企業有200人的選址人員,現在只有20人,這是我們幫他優化的過程。

這幾步做完以後還有一些頭部企業走到下一步,這個叫效益數位化,就是企業完成自動化之後,就有了很強的資料能力,這時候企業就會想我這個能力能不能開放給別的企業,比如說把它做成一些指數,甚至把它做成智慧的APP,提供給我的供應商和我的下游,甚至把這個業務切出來,在產業鏈中覆蓋中小B。當然,這是TD正在做的一個邏輯。

四、資料智慧演進的三個階段

從我們的角度看資料智慧的演進分為三個階段。

第一個階段是Data到Analysis。 我們有大量資料,然後幫開發者做分析,但是我們發現從資料到分析只是淺層次重複,無法形成閉環和帶來效益提升。現在也還有很多企業處於這個階段。

第二個階段是Data到Action。 在第一個階段走不通的情況下,我們嘗試著往下一步走,看資料能做什麼,能不能優化廣告,能不能優化行銷。但是我們驗證了這步基本不可行,這在國外是可行的,但是在中國不可行,因為中國有太多的不透明,我們在一個線上網路上測試了很多,我們投進去時是對的,但是出來的結果就不行,就是那麼大的一個網路,也有很多的不透明的演算法,把你資料的演算法邏輯都抵消了,這是中國的現狀。

所以, 現在越來越多的企業走到第三階段 ,Data到Data Science,我把資料變成資料模型,證明它在什麼地方對商業有價值。因為你比的不是最終效果,比的是過程,對企業來說,這個model比人工好,上了這套東西,以前能做50個產品,現在能做500個,這也是提升。

通過Data到Data Science形成閉環,依賴模型持續提升效果,現在是大家的共識。

五、資料服務價值長期才能顯現

時間關係,最後跟大家來解釋一下資料回報定律,資料回報定律是指在指數級世界裡,資料對企業商業價值的回報都是加速的,我們服務的所有企業都有這個趨勢。

第一年我們看不到資料對商業特別明顯的回報,這是因為這種回報的比例雖然很大,但是基礎太低,而大量企業在第二年,第三年的回報特別明顯。

我們很多的客戶現在和我們簽的全部都是分成協定,他多賣一件衣服、一個漢堡願意給我付錢,就是因為它們逐步發現,通過資料真的可以幫它每年省上億費用,或者帶來非常可觀的回報。

但我也有一點擔憂, 現在很多的資料企業太急於求成,對客戶承諾說我三個月半年就可以幫你做什麼,我可以告訴你,這個很難做到,結果一定是兩三年以後才能顯現,這就是中國企業做不大的原因。

如果這一層邊界都有問題,或者是企業有內鬼,怎麼解決資料安全問題?而 Facebook資料安全投入是非常大的,也出現了非常新的資料,比如說我們看到一種技術,在閘道上的設備可以看到企業所有的資料流程動,這些資訊是如何從一個點到另外一個點,是如何流動被使用的。而在中國完全沒有積累,技術差距5到10年。

歐盟有史以來最嚴苛的個人隱私保護法GDPR在下個月就會正式實行,如果侵犯了歐盟成員國的個人隱私,罰金是企業全年收入的4%,或者2000萬歐元,取高值。所以沒有企業敢對這件事情不重視,並且企業會投入很多精力做這個事情。

我們也在解決這些問題,我們推了一個體系,就是在資料不流動的情況下也可以共用。因為以前解決不了這樣的問題,A和B合作,資料相互不願提供,很難達成合作。但如果找到一個方法,資料都不用出去,就能解決這個問題。

業務的問題要回歸技術,最終還是用技術本身去解決問題,這是中國企業所欠缺的。所以我覺得中國下一步資料服務就會被限制在技術上。

所以這是我們從美國能看到的。

二、我們看世界的角度將從實體物質化轉化為數位虛擬化

現在有很多做應用的公司,像Stitch Fix是服裝行業公司,你會發現它的公司裡面一半多是資料科學家,不是傳統的運營人員,他們每天就是用資料幫你選衣服,幫你優化供應鏈。

這是真正的一個大趨勢。

這一趨勢可以用一句話概括,我們看世界的角度將從實體物質化轉化為數位虛擬化。

Google在2014年、2015年就把大部分的資源投入到機器學習,Google的人告訴我未來一定是機器學習深度學習的時代,而在2016年就出現了阿爾法狗。

我一直在深思為什麼出現機器比人強的情況。大家研究技術都會知道阿爾法狗的核心是演算法模型,包括搜索、價值網路和策略網路,但是它的策略網路的平均值只有0.5幾,真正做決策的時候不如人,他能下過人就是因為它的蒙特卡洛樹搜索太厲害了,就是通過在虛擬世界裡面無盡的算力,達到機器學習的過程。

後來我去MIT見無人車領域的頂尖專家,問他無人駕駛L5技術到底需要幾年能成熟,他篤定的說十年左右,這是我聽到的最樂觀的估計。

阿爾法狗是把物理世界的問題數位虛擬化,之後就可以用不斷增長的電腦演算法去加速它的學習過程,達到能夠破局的效果。

但是在絕大部分領域做不到這一點,因為如果一個機器或者一個演算法不能幫人做決定,那麼對這個行業,第一沒有顛覆,第二沒有價值。

自動駕駛技術達到L5肯定就顛覆了原有行業,就是完全的自動駕駛,但是在L3以下就是輔助駕駛。在醫療領域,如果機器給出的結果真的能作為診斷結果,那也是顛覆,但是如果這個結果只能輔助人類,價值就有限。

要達到這個階段,所需要的時間遠比我們想像的要長。

所以現在大家對人工智慧過於樂觀,我相信未來幾年會有回落,不過技術本身是有價值的。

三、大資料通過四個步驟改造一個行業

我們再看一下行業,TalkingData成立了七年時間,服務了很多行業,我們可能是大資料公司裡面涉及行業最多的。從我們的角度來看,不管是哪一個行業,基本上都是這四個步驟。

1, 業務資料化

2, 應用場景化

3, 流程自動化

4, 決策智慧化

首先是 業務資料化 ,我們進到很多傳統行業的時候,發現它本身的資料流程程沒有資料化,就是這個業務做得好還是不好,沒有一套資料體系、指標體系、方法論體系來管理。而業務資料化就是各種大資料技術,數倉、BI等這些技術攪合在一起的過程。

我們看到大量的企業還是用BI,用所謂的Smart BI這些技術去把企業整個的業務指標管理起來。但是從資料角度來看它能做的是什麼?是Alert,它可以報警和監控,它可以告訴你哪一個業務出問題了給你報警,更多的是這樣。

接下來到第二步,我們叫 應用場景化 ,這裡特指資料應用的場景化,就是在完成資料化之後,考慮用什麼方法提升這些業務。用大資料的方法,用建模的方法,用機器學習的方法去做應用場景化,比如在行銷場景裡面,可以提出建議,是否在這樣的一個行銷活動裡面增加預算,是否應該投放這樣的人群。

坦率的說這個過程還是基於人工,基於很多的分析師對業務的瞭解或者是他的經驗,中國90%以上的企業還處於這樣的階段包括互聯網企業,而能否把自己的業務資料化,資料應用場景化,這是企業需要去面對的問題。

但是從去年下半年到今年,我們發現有一些頭部企業走到第三步, 流程自動 化,比如說我們現在服務的一些在零售業的頭部企業,有一家做餐飲的企業,他有一個50人的資料團隊,這是絕無僅有的,比很多做科技的公司投入都大。這50人的資料科學家,會做很多的資料預測,預測每天賣多少漢堡,賣多少咖啡。大家覺得這個事好像挺不靠譜的,但是實際上經過我們的幫助,它的準確率已經在95%以上,真的能預測出一個門店明天賣多少漢堡。這個過程需要用大量的資料,包括天氣、路況、客流、歷史交易等等。這個結果對它直接的影響是可以優化第二天排班、優化供應鏈情況,計算下來一年節省上億元費用,相當於一個邏輯演算法就上億。這個事情不是美國發生的,是在中國。

第四個就是決策智慧化,我們也為企業選址提供服務,因為對線下零售來說,店開在哪就百分之七八十決定了這個家店能不能成功。我們幫客戶做選址,它第一個要求我們去預測的是這家店未來三年的收入,它會把歷史上三年的資料給我們,但是不告訴我們整個交易情況,我們建模型,建了之後去優化這個模型,先準確的預測歷史,然後再預測新店未來三年的收入是多少,這已經自動化了,以前這個企業有200人的選址人員,現在只有20人,這是我們幫他優化的過程。

這幾步做完以後還有一些頭部企業走到下一步,這個叫效益數位化,就是企業完成自動化之後,就有了很強的資料能力,這時候企業就會想我這個能力能不能開放給別的企業,比如說把它做成一些指數,甚至把它做成智慧的APP,提供給我的供應商和我的下游,甚至把這個業務切出來,在產業鏈中覆蓋中小B。當然,這是TD正在做的一個邏輯。

四、資料智慧演進的三個階段

從我們的角度看資料智慧的演進分為三個階段。

第一個階段是Data到Analysis。 我們有大量資料,然後幫開發者做分析,但是我們發現從資料到分析只是淺層次重複,無法形成閉環和帶來效益提升。現在也還有很多企業處於這個階段。

第二個階段是Data到Action。 在第一個階段走不通的情況下,我們嘗試著往下一步走,看資料能做什麼,能不能優化廣告,能不能優化行銷。但是我們驗證了這步基本不可行,這在國外是可行的,但是在中國不可行,因為中國有太多的不透明,我們在一個線上網路上測試了很多,我們投進去時是對的,但是出來的結果就不行,就是那麼大的一個網路,也有很多的不透明的演算法,把你資料的演算法邏輯都抵消了,這是中國的現狀。

所以, 現在越來越多的企業走到第三階段 ,Data到Data Science,我把資料變成資料模型,證明它在什麼地方對商業有價值。因為你比的不是最終效果,比的是過程,對企業來說,這個model比人工好,上了這套東西,以前能做50個產品,現在能做500個,這也是提升。

通過Data到Data Science形成閉環,依賴模型持續提升效果,現在是大家的共識。

五、資料服務價值長期才能顯現

時間關係,最後跟大家來解釋一下資料回報定律,資料回報定律是指在指數級世界裡,資料對企業商業價值的回報都是加速的,我們服務的所有企業都有這個趨勢。

第一年我們看不到資料對商業特別明顯的回報,這是因為這種回報的比例雖然很大,但是基礎太低,而大量企業在第二年,第三年的回報特別明顯。

我們很多的客戶現在和我們簽的全部都是分成協定,他多賣一件衣服、一個漢堡願意給我付錢,就是因為它們逐步發現,通過資料真的可以幫它每年省上億費用,或者帶來非常可觀的回報。

但我也有一點擔憂, 現在很多的資料企業太急於求成,對客戶承諾說我三個月半年就可以幫你做什麼,我可以告訴你,這個很難做到,結果一定是兩三年以後才能顯現,這就是中國企業做不大的原因。

Next Article
喜欢就按个赞吧!!!
点击关闭提示