華文網

這家資料公司為什麼能成為數百萬企業的選擇?

今年年初,Oracle發佈了一份大資料變化趨勢報告,報告中指出,越來越多的企業將用戶分析甚至是企業應用同大資料加以結合。從AI支持型應用到Megabox等資料流程用戶端,各家企業都將迎來自己的大資料轉型及下一代資料驅動型應用。

Oracle亞太客戶體驗策略及轉型部門總監Krisi Mansfield也表示:“預見並瞭解了客戶的意向,並相應地採取行動之後,就可實現個人化(Individualization)”

目前,國內一批大資料企業都開始致力於此項技術的研究和探索——即圍繞用戶的使用過程來打造一對一的體驗。從已掌握的、能體現用戶在某個特定過程的資料入手,厘清這些資料將在接下來的哪些互動環節提供支持與幫助,

從而據此制定具體的互動體驗。因此,這一過程也將改變企業開展業務的方式——從反應式到主動式和預測式。

大數據在量級、即時性、多樣性三項維度上的進程

但總的來說,該項大資料應用還面臨著許多較大的技術難題。

隨著資料管道來源的多樣化、量級的巨幅提升和對即時性效果的需求增強,各家大資料公司該如何規劃技術演進的具體細節、技術架構又該如何設計和搭建……帶著這些問題,我們採訪了協力廠商全域大資料服務提供者【友盟+】COO葉謙,他也以【友盟+】的發展和技術演進為例,分享了合併後統一技術架構的一些經驗,闡述了當下大資料行業的痛點、難點和未來大資料的發展趨勢。

【友盟+】COO 葉謙

1為什麼叫“全域資料”?

“全域資料”是否意味著“線上”、“線下”資料概念的模糊化?從PC端到移動端,從線上資料到線下資料,資料在不斷擴張的管道中逐漸變得分散,只有把這些資料有效打通,才能讓大資料發揮其價值。

在葉謙看來,大資料時代,

大家越來越多的發現A場景下的一些資料,在B場景也非常有用,所以資料的範圍在延伸,意味著企業也要將探尋資料的觸角進行拓展。這是全域大資料的基礎。但大部分時候,某一家企業或某一個組織,只擁有一部分或一方面資料,因此又很難把多個方面的資料收集、串聯起來。

於是,如何多管道收集資料、如何實現跨屏資料打通、如何解析更多形式的非結構化資料等問題,

正使全域資料面臨著許多不言而喻的挑戰。

移動互聯網剛在國內興起之時,企業對資料的認知或需求還處於初級階段,大多數隻關心諸如留存、日活、新增量這類資料,一些規模較大的企業可能會附加更多維度的分析需求,比如對“各個管道所帶來的量是多少”、“日活人群都是哪些類型”等不同程度的用戶細分需求。發展到今天,企業在任何一個用戶分區的維度上都希望獲取針對其用戶的、更細細微性的資料分析,如年齡、喜好、訪問頻度、地理位置等一系列使用者屬性。因此,【友盟+】現在的趨勢也在由資料統計、資料分析逐漸拓展到資料智慧分析和資料深度挖掘。

那它基於一套怎樣的模型實現?這裡我們以U-DIP(【友盟+】資料智慧平臺)的運作原理來舉例。

目前,【友盟+】的資料來源主要來源於PC端、移動端、線下資料這三支渠道,而每一支渠道採集的資料種類又不完全一樣。比如PC端資料會更多的聚集於頁面跳轉、流覽時長、流覽器資訊等,移動端資料包括使用APP應用的各類資訊,而線下資料更集中在地理位置、移動路線等。這些資料會作為原始日誌進入存儲平臺中。第二步就是通過預定義的規則抽取資料中的特徵資訊,這些特徵資訊都和設備(或人群)相關,並能通過一個大ID關聯庫進行打通。

另一方面,【友盟+】從各類資訊中(網站資訊,社交網路資訊,應用市場訊息等)構建關於APP和網站的知識庫。這些資訊在第三步“深度加工”時,被輸入到機器學習演算法模型中,得到各種類型的人口學標籤和興趣標籤。這個過程中,海量資料還可被利用,進行設備品質和使用者真實性的識別工作,例如判斷哪些設備是風險設備(非正常使用者使用的設備,可能是作弊設備或者是虛擬機器)。

北京大學新媒體研究院教授劉德寰也曾提出過,現在存在的很多標籤實際上都是偽標籤,未來進行有效大資料運算會有兩種路徑:第一,未來資料分析就是分析人,完善人的緯度。第二個路徑,對物的緯度探測,基於人的認知習慣。

2與業務並進,技術該如何更新?

在業務的演進和縱深的情況下,需要技術在背後予以很大的支撐,同時也需要技術能與業務並進。【友盟+】在以下三方面進行了技術上的調整和優化:

資料獲取端的演進、後端計算的優化

在資料獲取端的持續積累和演進上,它從之前較為簡單的採集方案、採集協議,演化成今天所具備的如虛擬機器探測方案等較為完善的反作弊方式。同時,隨著資料量級的擴增,後端計算也經歷了類似的演進,從最初較小體量的計算,到擁有上千台機器的大規模Hadoop集群,再逐漸遷移到阿裡雲的StreamCompute、MaxCompute大型雲計算平臺上,【友盟+】根據資料量大、計算複雜等特定情況進行了大量優化和改造。

不斷發展的過程,資料量也開始呈現指數型增長態勢,每年平均會翻好幾倍,再加上計算任務複雜程度和任務個數的提升,導致了後端計算的巨大壓力。早期時採用的是當時較為成熟且使用廣泛的一些開源框架,比如Hadoop、Storm、Kafka、Spark、Elasticsearch等。隨著業務的擴展,【友盟+】更多的採用了阿裡雲方案,由於穩定性和成熟度等優點,阿裡雲技術體系也在逐漸取代其曾經的開源系統。

將資料採擷結果用於技術方案的優化

在資料累積的過程中,【友盟+】開始將資料採擷的結果用於其自身的計算體系及技術體系優化。針對採集的海量網頁內容,技術團隊建立了一套資料模型體系,來區分哪些設備、哪些網站和哪些流量存在異常,比如監測出涉及作弊作弊的流量和用戶端 。對於電商、支付平臺、O2O及互聯網廣告系統來說,反作弊在本質上發揮著反欺詐、杜絕虛假買賣、保證廣告主利益等作用。但作為一項核心技術,幾乎所有的公司都會對自己的反作弊技術諱莫如深,研發一套反作弊規則和系統也需要很深的技術積澱。

這一點上,【友盟+】的母公司阿裡巴巴在電商反作弊已形成了一整套監控預警、識別分析、處罰管控的多維度監管機制,特別是在對虛假交易的資料監控和演算法識別上就應用了大規模圖搜索技術。因而【友盟+】在這方面有一些技術優勢和先天基因。去年的雙十一當天,【友盟+】監測到的廣告投放量達34億多,通過反作弊進行流量過濾後識別出約七千多萬條的異常點擊。而這一過程也相當於為廣告主節省了三千多萬廣告投放費用(按照0.5元一次點擊計算)。

3多條業務線同步推進的情況下,如何統一技術棧?

【友盟+】在業務方向和技術架構上做的規劃和統一,同樣具有一些借鑒意義。

葉謙說,2017年【友盟+】將主要在三個維度上做新的業務規劃,一是互聯網應用資料業務,二是拓展新零售資料業務,三是發力廣告行銷資料業務。 技術方面的調整則會圍繞著技術棧統一來展開,主要有四點:開發語言統一,開發框架的統一,通用技術元件的統一以及底層平臺的統一。統一的結果不僅能使開發效率提升、穩定性增強、運維成本降低,同時也能在一定程度上縮減核心硬體成本。

以統一開發語言為例,之前所採用的開發語言非常多,比如Python、Java、Scala、Ruby、PHP等。而統一後,所有研發團隊會獨立使用Java。在葉謙看來,Java是這幾種語言中相對最成熟,因而也會圍繞Java開發語言來選擇較為成熟的開發框架。例如,會統一使用Spring Framework作為前端開發框架。另外,在技術元件的統一上,【友盟+】也選擇了經過阿裡集團多年雙11檢驗的、能夠承載大資料量高吞吐和高併發,具有極高穩定性和較大可擴展性的通用技術元件。2016年雙十一期間就用到了阿裡集團提供的能支撐龐大資料量的一些萬用群組件,如:阿裡雲的MaxCompute。

但總的來說,統一技術棧這件事在任何公司都不可能一蹴而就、一帆風順。在這個過程中,各技術團隊勢必會經歷一定程度上的心理鬥爭。因為對於任何技術人而言,改變他所習慣的語言、開發框架,就是對其舒適區的挑戰。如何讓不同的團隊成員走出原有的固定模式,認可技術棧統一的價值,形成統一的認識,是推動技術向前、個人成長的一個最重要的契機。

葉謙認為,當大家逐漸認識到技術棧統一的價值之後,後續的研發推動才能順理成章,比如:大家一起來選擇更成熟技術方案、更成熟的技術體系和更成熟的組件等。

4用資料為客戶提供真正的價值

談到未來大資料的趨勢,葉謙認為主要會圍繞三點來進行。一是資料與垂直行業越來越緊密的結合,二是資料放開程度會提高、資料交換量會大大增加。當然, 在這一點上還需先解決資料安全提取的問題,這也是目前困擾大資料行業的難點之一。三是與人工智慧的結合產出,會更多的基於歷史資料對未來進行預測。

這三點同樣是【友盟+】發力的主要方向。葉謙希望,不管自己和團隊能走多遠,還是要回到原本的初心上——真正能用資料為客戶提供核心價值,解決他們在利用資料時遇到的困難。

提起印象最深刻一件事的時候,葉謙說起在去年【友盟+】的一個客戶,其資料指標曾出現了5%的波動,雙方先進行了半個多月的排查和異地討論,工程師直接到現場和對方一起工作、找出可能的原因點,回來再跟內部人士圍繞可能的情況加深分析,才得出了那個細微的導致問題產生的根源。雖然流程之繁瑣,但葉謙始終奉信“使命必達”,即使問題再棘手、再特殊,也需要做到客戶第一,最大程度上解決他們的需求,從而才能反省和提升自我。

放在團隊中,葉謙也更多的在企業文化中植入工匠精神,有意識的在工程師群體培養“客戶第一”的理念,鼓勵每個人發揮自己的主觀能動性,能執著、專注、踏實的在行業耕耘。“越是多變、浮躁的互聯網,越需要對業務和技術深挖,把根紮深,這樣才能找到自己的核心競爭力。對企業而言,也是如此。”葉謙如是說。

如年齡、喜好、訪問頻度、地理位置等一系列使用者屬性。因此,【友盟+】現在的趨勢也在由資料統計、資料分析逐漸拓展到資料智慧分析和資料深度挖掘。

那它基於一套怎樣的模型實現?這裡我們以U-DIP(【友盟+】資料智慧平臺)的運作原理來舉例。

目前,【友盟+】的資料來源主要來源於PC端、移動端、線下資料這三支渠道,而每一支渠道採集的資料種類又不完全一樣。比如PC端資料會更多的聚集於頁面跳轉、流覽時長、流覽器資訊等,移動端資料包括使用APP應用的各類資訊,而線下資料更集中在地理位置、移動路線等。這些資料會作為原始日誌進入存儲平臺中。第二步就是通過預定義的規則抽取資料中的特徵資訊,這些特徵資訊都和設備(或人群)相關,並能通過一個大ID關聯庫進行打通。

另一方面,【友盟+】從各類資訊中(網站資訊,社交網路資訊,應用市場訊息等)構建關於APP和網站的知識庫。這些資訊在第三步“深度加工”時,被輸入到機器學習演算法模型中,得到各種類型的人口學標籤和興趣標籤。這個過程中,海量資料還可被利用,進行設備品質和使用者真實性的識別工作,例如判斷哪些設備是風險設備(非正常使用者使用的設備,可能是作弊設備或者是虛擬機器)。

北京大學新媒體研究院教授劉德寰也曾提出過,現在存在的很多標籤實際上都是偽標籤,未來進行有效大資料運算會有兩種路徑:第一,未來資料分析就是分析人,完善人的緯度。第二個路徑,對物的緯度探測,基於人的認知習慣。

2與業務並進,技術該如何更新?

在業務的演進和縱深的情況下,需要技術在背後予以很大的支撐,同時也需要技術能與業務並進。【友盟+】在以下三方面進行了技術上的調整和優化:

資料獲取端的演進、後端計算的優化

在資料獲取端的持續積累和演進上,它從之前較為簡單的採集方案、採集協議,演化成今天所具備的如虛擬機器探測方案等較為完善的反作弊方式。同時,隨著資料量級的擴增,後端計算也經歷了類似的演進,從最初較小體量的計算,到擁有上千台機器的大規模Hadoop集群,再逐漸遷移到阿裡雲的StreamCompute、MaxCompute大型雲計算平臺上,【友盟+】根據資料量大、計算複雜等特定情況進行了大量優化和改造。

不斷發展的過程,資料量也開始呈現指數型增長態勢,每年平均會翻好幾倍,再加上計算任務複雜程度和任務個數的提升,導致了後端計算的巨大壓力。早期時採用的是當時較為成熟且使用廣泛的一些開源框架,比如Hadoop、Storm、Kafka、Spark、Elasticsearch等。隨著業務的擴展,【友盟+】更多的採用了阿裡雲方案,由於穩定性和成熟度等優點,阿裡雲技術體系也在逐漸取代其曾經的開源系統。

將資料採擷結果用於技術方案的優化

在資料累積的過程中,【友盟+】開始將資料採擷的結果用於其自身的計算體系及技術體系優化。針對採集的海量網頁內容,技術團隊建立了一套資料模型體系,來區分哪些設備、哪些網站和哪些流量存在異常,比如監測出涉及作弊作弊的流量和用戶端 。對於電商、支付平臺、O2O及互聯網廣告系統來說,反作弊在本質上發揮著反欺詐、杜絕虛假買賣、保證廣告主利益等作用。但作為一項核心技術,幾乎所有的公司都會對自己的反作弊技術諱莫如深,研發一套反作弊規則和系統也需要很深的技術積澱。

這一點上,【友盟+】的母公司阿裡巴巴在電商反作弊已形成了一整套監控預警、識別分析、處罰管控的多維度監管機制,特別是在對虛假交易的資料監控和演算法識別上就應用了大規模圖搜索技術。因而【友盟+】在這方面有一些技術優勢和先天基因。去年的雙十一當天,【友盟+】監測到的廣告投放量達34億多,通過反作弊進行流量過濾後識別出約七千多萬條的異常點擊。而這一過程也相當於為廣告主節省了三千多萬廣告投放費用(按照0.5元一次點擊計算)。

3多條業務線同步推進的情況下,如何統一技術棧?

【友盟+】在業務方向和技術架構上做的規劃和統一,同樣具有一些借鑒意義。

葉謙說,2017年【友盟+】將主要在三個維度上做新的業務規劃,一是互聯網應用資料業務,二是拓展新零售資料業務,三是發力廣告行銷資料業務。 技術方面的調整則會圍繞著技術棧統一來展開,主要有四點:開發語言統一,開發框架的統一,通用技術元件的統一以及底層平臺的統一。統一的結果不僅能使開發效率提升、穩定性增強、運維成本降低,同時也能在一定程度上縮減核心硬體成本。

以統一開發語言為例,之前所採用的開發語言非常多,比如Python、Java、Scala、Ruby、PHP等。而統一後,所有研發團隊會獨立使用Java。在葉謙看來,Java是這幾種語言中相對最成熟,因而也會圍繞Java開發語言來選擇較為成熟的開發框架。例如,會統一使用Spring Framework作為前端開發框架。另外,在技術元件的統一上,【友盟+】也選擇了經過阿裡集團多年雙11檢驗的、能夠承載大資料量高吞吐和高併發,具有極高穩定性和較大可擴展性的通用技術元件。2016年雙十一期間就用到了阿裡集團提供的能支撐龐大資料量的一些萬用群組件,如:阿裡雲的MaxCompute。

但總的來說,統一技術棧這件事在任何公司都不可能一蹴而就、一帆風順。在這個過程中,各技術團隊勢必會經歷一定程度上的心理鬥爭。因為對於任何技術人而言,改變他所習慣的語言、開發框架,就是對其舒適區的挑戰。如何讓不同的團隊成員走出原有的固定模式,認可技術棧統一的價值,形成統一的認識,是推動技術向前、個人成長的一個最重要的契機。

葉謙認為,當大家逐漸認識到技術棧統一的價值之後,後續的研發推動才能順理成章,比如:大家一起來選擇更成熟技術方案、更成熟的技術體系和更成熟的組件等。

4用資料為客戶提供真正的價值

談到未來大資料的趨勢,葉謙認為主要會圍繞三點來進行。一是資料與垂直行業越來越緊密的結合,二是資料放開程度會提高、資料交換量會大大增加。當然, 在這一點上還需先解決資料安全提取的問題,這也是目前困擾大資料行業的難點之一。三是與人工智慧的結合產出,會更多的基於歷史資料對未來進行預測。

這三點同樣是【友盟+】發力的主要方向。葉謙希望,不管自己和團隊能走多遠,還是要回到原本的初心上——真正能用資料為客戶提供核心價值,解決他們在利用資料時遇到的困難。

提起印象最深刻一件事的時候,葉謙說起在去年【友盟+】的一個客戶,其資料指標曾出現了5%的波動,雙方先進行了半個多月的排查和異地討論,工程師直接到現場和對方一起工作、找出可能的原因點,回來再跟內部人士圍繞可能的情況加深分析,才得出了那個細微的導致問題產生的根源。雖然流程之繁瑣,但葉謙始終奉信“使命必達”,即使問題再棘手、再特殊,也需要做到客戶第一,最大程度上解決他們的需求,從而才能反省和提升自我。

放在團隊中,葉謙也更多的在企業文化中植入工匠精神,有意識的在工程師群體培養“客戶第一”的理念,鼓勵每個人發揮自己的主觀能動性,能執著、專注、踏實的在行業耕耘。“越是多變、浮躁的互聯網,越需要對業務和技術深挖,把根紮深,這樣才能找到自己的核心競爭力。對企業而言,也是如此。”葉謙如是說。