近日, 愛分析在京舉辦了2018·中國大資料高峰論壇。 針對資料服務這一大資料行業重要細分領域, 愛分析邀請了資料服務領域標杆公司TalkingData的創始人崔曉波進行主題演講。
會上, 崔曉波就中美大資料市場差異與聯繫、資料智慧應用的演進路線、資料智慧的商業化落地等方面, 展開深度講解。
現將TalkingData創始人崔曉波的主題演講實錄分享。
演講實錄
崔曉波:今天我分享的主題是“資料智慧應用和商業模式發展”。
資料智慧是在過去兩年裡面才提的一個詞, 我堅信在未來的5到10年裡面是非常關鍵的詞, 因為資料和智慧本身就是一體兩面, 智慧離不開資料, 資料也離不開智慧, 如何運用好資料去創造智慧, 這是企業在未來不斷探索的方向。
我從幾個方面講一下我們過去這幾年, 在大資料, 特別是資料服務這個領域裡面的探索和思考, 以及我們看到的整個市場的狀態。
一、中美市場的差異與聯繫
中美大資料的異同和聯繫, 用一句話概括就是, 資料是連接中美智慧應用的橋樑 。
2014年我們在矽谷設立了研發中心, 對美國的投資也比較多, 在這個過程中, 我們發現很多有意思的事情。
我先舉兩個例子, 前年和去年我們和Kaggle——世界上最大的資料科學社區——做過兩個活動,
通過這樣一個實驗, 可以知道資料的用法非常豐富, 但既依賴於場景, 又依賴於領域知識。 所以中國人真正缺乏的是各個領域如金融、地產、零售、互聯網、工業裡的知識, 我覺得這裡還需要很長的時間去探索。
最近我們又發佈了一個活動,
過去幾年裡面大家提資料交易, 政府也在籌建資料交易市場, 但沒有解決根本的問題。
通過去年的網安法, 還有我們最近和監管部門的交流可以確定, 資料作為原材料是不能被交易的。
另外你會發現 真正擁有資料的企業不願意把資料放出來, 它的顧慮不是為了要壟斷, 而是因為還有很多技術問題沒有被解決。 什麼樣的技術問題沒有被解決?就是資料如何安全的被共用,
資料安全完全不同於我們以前說的網路安全, 因為以前我們對資料安全的理解只到這個層次, 企業整個IT系統大概是由雲、IDC以及內部網路構成。 所以在網路外面有一層邊界, 企業要守住這個邊界, 不能讓駭客進來。 如果這一層邊界都有問題,或者是企業有內鬼,怎麼解決資料安全問題?而 Facebook資料安全投入是非常大的,也出現了非常新的資料,比如說我們看到一種技術,在閘道上的設備可以看到企業所有的資料流程動,這些資訊是如何從一個點到另外一個點,是如何流動被使用的。而在中國完全沒有積累,技術差距5到10年。
歐盟有史以來最嚴苛的個人隱私保護法GDPR在下個月就會正式實行,如果侵犯了歐盟成員國的個人隱私,罰金是企業全年收入的4%,或者2000萬歐元,取高值。所以沒有企業敢對這件事情不重視,並且企業會投入很多精力做這個事情。
我們也在解決這些問題,我們推了一個體系,就是在資料不流動的情況下也可以共用。因為以前解決不了這樣的問題,A和B合作,資料相互不願提供,很難達成合作。但如果找到一個方法,資料都不用出去,就能解決這個問題。
業務的問題要回歸技術,最終還是用技術本身去解決問題,這是中國企業所欠缺的。所以我覺得中國下一步資料服務就會被限制在技術上。
所以這是我們從美國能看到的。
二、我們看世界的角度將從實體物質化轉化為數位虛擬化
現在有很多做應用的公司,像Stitch Fix是服裝行業公司,你會發現它的公司裡面一半多是資料科學家,不是傳統的運營人員,他們每天就是用資料幫你選衣服,幫你優化供應鏈。
這是真正的一個大趨勢。
這一趨勢可以用一句話概括,我們看世界的角度將從實體物質化轉化為數位虛擬化。
Google在2014年、2015年就把大部分的資源投入到機器學習,Google的人告訴我未來一定是機器學習深度學習的時代,而在2016年就出現了阿爾法狗。
我一直在深思為什麼出現機器比人強的情況。大家研究技術都會知道阿爾法狗的核心是演算法模型,包括搜索、價值網路和策略網路,但是它的策略網路的平均值只有0.5幾,真正做決策的時候不如人,他能下過人就是因為它的蒙特卡洛樹搜索太厲害了,就是通過在虛擬世界裡面無盡的算力,達到機器學習的過程。
後來我去MIT見無人車領域的頂尖專家,問他無人駕駛L5技術到底需要幾年能成熟,他篤定的說十年左右,這是我聽到的最樂觀的估計。
阿爾法狗是把物理世界的問題數位虛擬化,之後就可以用不斷增長的電腦演算法去加速它的學習過程,達到能夠破局的效果。
但是在絕大部分領域做不到這一點,因為如果一個機器或者一個演算法不能幫人做決定,那麼對這個行業,第一沒有顛覆,第二沒有價值。
自動駕駛技術達到L5肯定就顛覆了原有行業,就是完全的自動駕駛,但是在L3以下就是輔助駕駛。在醫療領域,如果機器給出的結果真的能作為診斷結果,那也是顛覆,但是如果這個結果只能輔助人類,價值就有限。
要達到這個階段,所需要的時間遠比我們想像的要長。
所以現在大家對人工智慧過於樂觀,我相信未來幾年會有回落,不過技術本身是有價值的。
三、大資料通過四個步驟改造一個行業
我們再看一下行業,TalkingData成立了七年時間,服務了很多行業,我們可能是大資料公司裡面涉及行業最多的。從我們的角度來看,不管是哪一個行業,基本上都是這四個步驟。
1, 業務資料化
2, 應用場景化
3, 流程自動化
4, 決策智慧化
首先是 業務資料化 ,我們進到很多傳統行業的時候,發現它本身的資料流程程沒有資料化,就是這個業務做得好還是不好,沒有一套資料體系、指標體系、方法論體系來管理。而業務資料化就是各種大資料技術,數倉、BI等這些技術攪合在一起的過程。
我們看到大量的企業還是用BI,用所謂的Smart BI這些技術去把企業整個的業務指標管理起來。但是從資料角度來看它能做的是什麼?是Alert,它可以報警和監控,它可以告訴你哪一個業務出問題了給你報警,更多的是這樣。
接下來到第二步,我們叫 應用場景化 ,這裡特指資料應用的場景化,就是在完成資料化之後,考慮用什麼方法提升這些業務。用大資料的方法,用建模的方法,用機器學習的方法去做應用場景化,比如在行銷場景裡面,可以提出建議,是否在這樣的一個行銷活動裡面增加預算,是否應該投放這樣的人群。
坦率的說這個過程還是基於人工,基於很多的分析師對業務的瞭解或者是他的經驗,中國90%以上的企業還處於這樣的階段包括互聯網企業,而能否把自己的業務資料化,資料應用場景化,這是企業需要去面對的問題。
但是從去年下半年到今年,我們發現有一些頭部企業走到第三步, 流程自動 化,比如說我們現在服務的一些在零售業的頭部企業,有一家做餐飲的企業,他有一個50人的資料團隊,這是絕無僅有的,比很多做科技的公司投入都大。這50人的資料科學家,會做很多的資料預測,預測每天賣多少漢堡,賣多少咖啡。大家覺得這個事好像挺不靠譜的,但是實際上經過我們的幫助,它的準確率已經在95%以上,真的能預測出一個門店明天賣多少漢堡。這個過程需要用大量的資料,包括天氣、路況、客流、歷史交易等等。這個結果對它直接的影響是可以優化第二天排班、優化供應鏈情況,計算下來一年節省上億元費用,相當於一個邏輯演算法就上億。這個事情不是美國發生的,是在中國。
第四個就是決策智慧化,我們也為企業選址提供服務,因為對線下零售來說,店開在哪就百分之七八十決定了這個家店能不能成功。我們幫客戶做選址,它第一個要求我們去預測的是這家店未來三年的收入,它會把歷史上三年的資料給我們,但是不告訴我們整個交易情況,我們建模型,建了之後去優化這個模型,先準確的預測歷史,然後再預測新店未來三年的收入是多少,這已經自動化了,以前這個企業有200人的選址人員,現在只有20人,這是我們幫他優化的過程。
這幾步做完以後還有一些頭部企業走到下一步,這個叫效益數位化,就是企業完成自動化之後,就有了很強的資料能力,這時候企業就會想我這個能力能不能開放給別的企業,比如說把它做成一些指數,甚至把它做成智慧的APP,提供給我的供應商和我的下游,甚至把這個業務切出來,在產業鏈中覆蓋中小B。當然,這是TD正在做的一個邏輯。
四、資料智慧演進的三個階段
從我們的角度看資料智慧的演進分為三個階段。
第一個階段是Data到Analysis。 我們有大量資料,然後幫開發者做分析,但是我們發現從資料到分析只是淺層次重複,無法形成閉環和帶來效益提升。現在也還有很多企業處於這個階段。
第二個階段是Data到Action。 在第一個階段走不通的情況下,我們嘗試著往下一步走,看資料能做什麼,能不能優化廣告,能不能優化行銷。但是我們驗證了這步基本不可行,這在國外是可行的,但是在中國不可行,因為中國有太多的不透明,我們在一個線上網路上測試了很多,我們投進去時是對的,但是出來的結果就不行,就是那麼大的一個網路,也有很多的不透明的演算法,把你資料的演算法邏輯都抵消了,這是中國的現狀。
所以, 現在越來越多的企業走到第三階段 ,Data到Data Science,我把資料變成資料模型,證明它在什麼地方對商業有價值。因為你比的不是最終效果,比的是過程,對企業來說,這個model比人工好,上了這套東西,以前能做50個產品,現在能做500個,這也是提升。
通過Data到Data Science形成閉環,依賴模型持續提升效果,現在是大家的共識。
五、資料服務價值長期才能顯現
時間關係,最後跟大家來解釋一下資料回報定律,資料回報定律是指在指數級世界裡,資料對企業商業價值的回報都是加速的,我們服務的所有企業都有這個趨勢。
第一年我們看不到資料對商業特別明顯的回報,這是因為這種回報的比例雖然很大,但是基礎太低,而大量企業在第二年,第三年的回報特別明顯。
我們很多的客戶現在和我們簽的全部都是分成協定,他多賣一件衣服、一個漢堡願意給我付錢,就是因為它們逐步發現,通過資料真的可以幫它每年省上億費用,或者帶來非常可觀的回報。
但我也有一點擔憂, 現在很多的資料企業太急於求成,對客戶承諾說我三個月半年就可以幫你做什麼,我可以告訴你,這個很難做到,結果一定是兩三年以後才能顯現,這就是中國企業做不大的原因。
如果這一層邊界都有問題,或者是企業有內鬼,怎麼解決資料安全問題?而 Facebook資料安全投入是非常大的,也出現了非常新的資料,比如說我們看到一種技術,在閘道上的設備可以看到企業所有的資料流程動,這些資訊是如何從一個點到另外一個點,是如何流動被使用的。而在中國完全沒有積累,技術差距5到10年。歐盟有史以來最嚴苛的個人隱私保護法GDPR在下個月就會正式實行,如果侵犯了歐盟成員國的個人隱私,罰金是企業全年收入的4%,或者2000萬歐元,取高值。所以沒有企業敢對這件事情不重視,並且企業會投入很多精力做這個事情。
我們也在解決這些問題,我們推了一個體系,就是在資料不流動的情況下也可以共用。因為以前解決不了這樣的問題,A和B合作,資料相互不願提供,很難達成合作。但如果找到一個方法,資料都不用出去,就能解決這個問題。
業務的問題要回歸技術,最終還是用技術本身去解決問題,這是中國企業所欠缺的。所以我覺得中國下一步資料服務就會被限制在技術上。
所以這是我們從美國能看到的。
二、我們看世界的角度將從實體物質化轉化為數位虛擬化
現在有很多做應用的公司,像Stitch Fix是服裝行業公司,你會發現它的公司裡面一半多是資料科學家,不是傳統的運營人員,他們每天就是用資料幫你選衣服,幫你優化供應鏈。
這是真正的一個大趨勢。
這一趨勢可以用一句話概括,我們看世界的角度將從實體物質化轉化為數位虛擬化。
Google在2014年、2015年就把大部分的資源投入到機器學習,Google的人告訴我未來一定是機器學習深度學習的時代,而在2016年就出現了阿爾法狗。
我一直在深思為什麼出現機器比人強的情況。大家研究技術都會知道阿爾法狗的核心是演算法模型,包括搜索、價值網路和策略網路,但是它的策略網路的平均值只有0.5幾,真正做決策的時候不如人,他能下過人就是因為它的蒙特卡洛樹搜索太厲害了,就是通過在虛擬世界裡面無盡的算力,達到機器學習的過程。
後來我去MIT見無人車領域的頂尖專家,問他無人駕駛L5技術到底需要幾年能成熟,他篤定的說十年左右,這是我聽到的最樂觀的估計。
阿爾法狗是把物理世界的問題數位虛擬化,之後就可以用不斷增長的電腦演算法去加速它的學習過程,達到能夠破局的效果。
但是在絕大部分領域做不到這一點,因為如果一個機器或者一個演算法不能幫人做決定,那麼對這個行業,第一沒有顛覆,第二沒有價值。
自動駕駛技術達到L5肯定就顛覆了原有行業,就是完全的自動駕駛,但是在L3以下就是輔助駕駛。在醫療領域,如果機器給出的結果真的能作為診斷結果,那也是顛覆,但是如果這個結果只能輔助人類,價值就有限。
要達到這個階段,所需要的時間遠比我們想像的要長。
所以現在大家對人工智慧過於樂觀,我相信未來幾年會有回落,不過技術本身是有價值的。
三、大資料通過四個步驟改造一個行業
我們再看一下行業,TalkingData成立了七年時間,服務了很多行業,我們可能是大資料公司裡面涉及行業最多的。從我們的角度來看,不管是哪一個行業,基本上都是這四個步驟。
1, 業務資料化
2, 應用場景化
3, 流程自動化
4, 決策智慧化
首先是 業務資料化 ,我們進到很多傳統行業的時候,發現它本身的資料流程程沒有資料化,就是這個業務做得好還是不好,沒有一套資料體系、指標體系、方法論體系來管理。而業務資料化就是各種大資料技術,數倉、BI等這些技術攪合在一起的過程。
我們看到大量的企業還是用BI,用所謂的Smart BI這些技術去把企業整個的業務指標管理起來。但是從資料角度來看它能做的是什麼?是Alert,它可以報警和監控,它可以告訴你哪一個業務出問題了給你報警,更多的是這樣。
接下來到第二步,我們叫 應用場景化 ,這裡特指資料應用的場景化,就是在完成資料化之後,考慮用什麼方法提升這些業務。用大資料的方法,用建模的方法,用機器學習的方法去做應用場景化,比如在行銷場景裡面,可以提出建議,是否在這樣的一個行銷活動裡面增加預算,是否應該投放這樣的人群。
坦率的說這個過程還是基於人工,基於很多的分析師對業務的瞭解或者是他的經驗,中國90%以上的企業還處於這樣的階段包括互聯網企業,而能否把自己的業務資料化,資料應用場景化,這是企業需要去面對的問題。
但是從去年下半年到今年,我們發現有一些頭部企業走到第三步, 流程自動 化,比如說我們現在服務的一些在零售業的頭部企業,有一家做餐飲的企業,他有一個50人的資料團隊,這是絕無僅有的,比很多做科技的公司投入都大。這50人的資料科學家,會做很多的資料預測,預測每天賣多少漢堡,賣多少咖啡。大家覺得這個事好像挺不靠譜的,但是實際上經過我們的幫助,它的準確率已經在95%以上,真的能預測出一個門店明天賣多少漢堡。這個過程需要用大量的資料,包括天氣、路況、客流、歷史交易等等。這個結果對它直接的影響是可以優化第二天排班、優化供應鏈情況,計算下來一年節省上億元費用,相當於一個邏輯演算法就上億。這個事情不是美國發生的,是在中國。
第四個就是決策智慧化,我們也為企業選址提供服務,因為對線下零售來說,店開在哪就百分之七八十決定了這個家店能不能成功。我們幫客戶做選址,它第一個要求我們去預測的是這家店未來三年的收入,它會把歷史上三年的資料給我們,但是不告訴我們整個交易情況,我們建模型,建了之後去優化這個模型,先準確的預測歷史,然後再預測新店未來三年的收入是多少,這已經自動化了,以前這個企業有200人的選址人員,現在只有20人,這是我們幫他優化的過程。
這幾步做完以後還有一些頭部企業走到下一步,這個叫效益數位化,就是企業完成自動化之後,就有了很強的資料能力,這時候企業就會想我這個能力能不能開放給別的企業,比如說把它做成一些指數,甚至把它做成智慧的APP,提供給我的供應商和我的下游,甚至把這個業務切出來,在產業鏈中覆蓋中小B。當然,這是TD正在做的一個邏輯。
四、資料智慧演進的三個階段
從我們的角度看資料智慧的演進分為三個階段。
第一個階段是Data到Analysis。 我們有大量資料,然後幫開發者做分析,但是我們發現從資料到分析只是淺層次重複,無法形成閉環和帶來效益提升。現在也還有很多企業處於這個階段。
第二個階段是Data到Action。 在第一個階段走不通的情況下,我們嘗試著往下一步走,看資料能做什麼,能不能優化廣告,能不能優化行銷。但是我們驗證了這步基本不可行,這在國外是可行的,但是在中國不可行,因為中國有太多的不透明,我們在一個線上網路上測試了很多,我們投進去時是對的,但是出來的結果就不行,就是那麼大的一個網路,也有很多的不透明的演算法,把你資料的演算法邏輯都抵消了,這是中國的現狀。
所以, 現在越來越多的企業走到第三階段 ,Data到Data Science,我把資料變成資料模型,證明它在什麼地方對商業有價值。因為你比的不是最終效果,比的是過程,對企業來說,這個model比人工好,上了這套東西,以前能做50個產品,現在能做500個,這也是提升。
通過Data到Data Science形成閉環,依賴模型持續提升效果,現在是大家的共識。
五、資料服務價值長期才能顯現
時間關係,最後跟大家來解釋一下資料回報定律,資料回報定律是指在指數級世界裡,資料對企業商業價值的回報都是加速的,我們服務的所有企業都有這個趨勢。
第一年我們看不到資料對商業特別明顯的回報,這是因為這種回報的比例雖然很大,但是基礎太低,而大量企業在第二年,第三年的回報特別明顯。
我們很多的客戶現在和我們簽的全部都是分成協定,他多賣一件衣服、一個漢堡願意給我付錢,就是因為它們逐步發現,通過資料真的可以幫它每年省上億費用,或者帶來非常可觀的回報。
但我也有一點擔憂, 現在很多的資料企業太急於求成,對客戶承諾說我三個月半年就可以幫你做什麼,我可以告訴你,這個很難做到,結果一定是兩三年以後才能顯現,這就是中國企業做不大的原因。