您的位置:首頁>科技>正文

冰與火之歌:資料分析的前世今生(二)

2017年5月27日, 浙江烏鎮, 人機對弈。 世界第一的柯潔在顫抖, 他皺著眉, 仿佛聽到眼前黑白子之間刀來劍往的殺伐之聲。 俄而, 他歎口氣,

撿兩枚旗子丟到棋盤上, 認輸了。 這個身穿黑衣的青年, 狂傲不羈的天才, 躬身站起, 望了眼兵敗如山倒的棋局, 似乎又有些釋然。 沒有驚喜, 沒有奇跡, 當圍棋上帝AlphaGo一騎絕塵時, 他明白自己也走到十字路口上。

圍棋, 是一個靠直覺而非計算的遊戲, 而AlphaGo是在嘗試“用電腦擬合直覺”。 具體說就是, 通過深度神經網路, 模仿人類下圍棋這種直覺行為。 而深度神經網路這種演算法的實現, 則依賴于對海量資料的挖掘與分析, d也就是我們接下來要講的大資料分析。

大資料分析的優點

在講大資料前, 讓我們回顧上一篇冰與火之歌:資料分析的前世今生(一)文末提到, 基於統計學的資料分析有一些局限性:

對資料的精確度要求很高很難做到即時分析無法回答資料搜集時未考慮的問題

而大資料能近乎完美地解決上述問題,

解決的原因, 我們可以從大資料的三個特徵進行分析:

海量資料規模

舉個不太嚴謹的例子, 假如我們要預測2017年北京高考數學平均分, 方法是找出歷年北京高考數學平均分與試卷難易度的關係,

再根據2017北京數學卷的難易度, 算出平均分。

如果是統計學, 因為無法處理海量的資料, 則只能採用隨機採樣的原則, 從每年的學生中隨機抽取100人作為樣本。 假設有1個人的成績錄入出錯, 則誤差為0.01。

如果是大資料, 則將北京的6萬考生全部作為處理資料, 假設有100個人成績錄入出錯, 則誤差為0.002。

從上面這個例子可以看出, 統計學由於資料量小, 一顆耗子屎打亂一鍋粥。 而大資料的資料規模如此龐大, 所以允許資料有一定誤差。

動態資料體系

大資料的採集、存儲、處理都是即時進行的, 所以能即時分析。 而統計學的資料分析, 則依賴於確定問題, 再根據問題去搜集資料, 資料的搜集無法做到即時,

分析自然也無法即時。 有興趣的朋友可以看一下我的上一篇文章, 這裡不再贅述。

多樣資料類型

從新澤西州的匯款詐騙說起

Xoom是一個專門從事跨境匯款業務的美國公司, 它會分析一筆交易的所有相關資料。 2011年, 它注意到用“發現卡”從新澤西州匯款的交易量比正常情況多一些, 於是啟動報警。 Xoom公司的首席執行官約翰·孔John Kunze)解釋說:“這個系統關注的是不應該出現的情況。 ”單獨來看, 每筆交易都是合法的, 但是事實證明這是一個犯罪集團在試圖詐騙。 而發現異常的唯一方法就是, 重新檢查所有的資料, 找出統計學分析法錯過的資訊。

大資料強調搜集所有的相關資料, 所以能發現“未知的問題”。 而傳統的統計學分析,

則只能等到問題爆發, 才能回溯尋找原因, 繼而進行事後分析。 孰優孰劣, 自然一清二楚。

什麼是大資料分析?

定義:對規模較大的資料進行分析, 通常使用一些演算法結合海量資料來預測某些事情發生的可能性

初看定義, 同學們可能會很失望, 看似深奧的大資料分析竟然可以用這麼一句簡單的話來概括?然而, 越是簡單的道理, 實際操作起來往往越難。 大資料分析, 簡單可以分為以下4步:

收集

資料收集的核心:在於收集的最好是“全量”資料,至少是盡可能多維度的資料

(1)屁股坐姿與防盜系統——資料維度

很少有人會認為一個人的坐姿能表現什麼資訊,但是日本先進工業技術研究所的教授越水重臣認為可以。當一個人坐著的時候,他的身形、姿勢和重量分佈都可以量化和資料化。越水重臣的團隊通過在汽車座椅下部安裝總共360個壓力感測器以測量人對椅子施加壓力的方式。把人體屁股特徵轉化成了資料,並且用0~256這個數值範圍對其進行量化,這樣就會產生獨屬於每個乘坐者的精確資料資料。

在這個實驗中,這個系統能根據人體對座位的壓力差異識別出乘坐者的身份,準確率高達98%。有了這個系統之後,汽車就能識別出駕駛者是不是車主;如果不是,系統就會要求司機輸入密碼;如果司機無法準確輸入密碼,汽車就會自動熄火。

如果僅僅只收集身形資料,或者只收集體重,系統都無法準確識別人的身份。大資料分析非常依賴資料的維度,資料的維度越多,資料量越大,大資料的價值也會倍增,可控分析的內容也會越多。

(2)資料分類

IDC早在2011年的調查報告中就提到,非結構化資料占未來十年新生成資料的90%。所以,資料的收集,不單單是對結構化資料的收集,也包括非結構化資料。

存儲

目前關係型數據庫在可縮放方面幾乎已經達到極限,無法處理如此量大、並且不規則的“非結構資料”的。而解決方案就是使用鍵值(Key-Value)存儲資料庫,這是一種 NoSQL(非關係型數據庫)模型,其資料按照鍵值對的形式進行組織、索引和存儲。KV存儲非常適合不涉及過多資料關係業務關係的業務資料,同時能有效減少讀寫磁片的次數,比SQL資料庫存儲擁有更好的讀寫性能。

下圖是5種用於大資料處理的存儲資料庫:

處理

資料處理的技術可以使用雲計算,而處理資料的方法,便是利用演算法結合資料預測某些事情發生的可能性。比如這兩年風頭正勁的今日頭條,就是一個經典例子。它為使用者推薦有價值的、個性化的資訊,本質就是記錄你的閱讀內容、習慣、口味等,將這些資料標籤化,再利用協同過濾、基於內容推薦等推薦演算法,就能推薦你想看的新聞了。

以大資料分析的一個分支,機器學習演算法為例,整個流程如圖所示:

下麵,我會最經典的樸素貝葉斯分類演算法來給大家講解上面的流程。

1、問題建模

(1)對現實問題進行抽象

假設豆瓣的老大久聞你的大名,給你提了這樣一個需求:

這時,你會對需求進行分析,提取出以下兩個關鍵字:

不同用戶:A喜歡的電影B可能不喜歡,所以我們的模型一定是基於使用者的喜歡的電影:什麼叫喜歡?什麼叫討厭?所以,我們需要量化喜歡的標準,最直接的辦法就是用評分來做,5分代表非常喜歡,1分代表非常討厭。

根據上述分析,我們就可以看出問題的本質,即我們要實現的東西——一個基於使用者的電影評分系統。現在,我們來看看實現這個電影評分系統的兩種方案:

方案一:根據使用者之前評分高的電影,推薦相似的電影方案二:A、B兩個用戶喜歡的電影很相似,可以給A推薦B喜歡的電影

第一種方法,就是基於內容的推薦演算法;而第二種方法,就是基於使用者的協同過濾演算法。假如我們採用第一種方案,問題就可以被轉化為下列表達:

計算電影內容之間的相似度,兩部電影越相似,它們的評分越可能相同

(2)選擇模型

樸素貝葉斯概述

眾所周知,樸素貝葉斯是一種簡單但是非常強大的線性分類器。它在垃圾郵件分類,疾病診斷中都取得了很大的成功。舉個例子,你在街上看到一個黑人,我問你你猜這哥們從哪來的,你十有八九猜非洲。為什麼呢?因為黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用資訊下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。(篇幅所限,這裡沒有講樸素貝葉斯的特徵獨立性以及數學原理,有興趣的朋友請自行百度)

能否適合電影評分系統?

樸素貝葉斯是一個線性分類器,那麼意味著它也能將電影進行分類:

2、準備資料

這個不難,豆瓣老大發了一份電影評分資料給你:

3、抽取特徵

假設我們選取三個特徵:地區、投資、風格,並對特徵進行數位化處理:

地區:美國 1 中國 2……投資:0:0-1億 ,1:1-2億 2:>2億風格:冒險 1 戰爭 2……

4、訓練模型

假設阿強對100部電影進行評分,我們選擇其中80部電影作為訓練樣本,以此訓練樸素貝葉斯模型,則對應下列流程圖的第二步與第三步

繼續以阿強為例,在他看過的80部電影中,評分為5分的電影有20部,則對應的P(5)=20/80=25%,同理可得:

在計算每個類別條件下各個特徵屬性劃分的頻率(由於P(x)對於所有類別來說是常數,所以只用計算分子):

P(美國片|電影評分=5分)= P(所有5分電影中美國片的占比)* P(5) ……

至此,模型訓練完畢,我們就可以用來預測阿強未看過的電影評分了。篇幅所限,如果對整個過程有興趣的同學請自行百度。

5、模型優化

我們可以看到,通過上面的模型只能得到整數型(5、4、3、2、1)的電影評分,所以可能出現下列兩種情況:

用戶對電影A的評分是3.6分,對電影B的評分是3.4分,但是利用樸素貝葉斯分類給出的電影評分電影A就是4分,電影B就是3分;通過條件概率的計算,發現某電影評分為5分、4分、3分、2分、1分的概率分別為20.5%,19.5%,20%,20%,20%,那麼根據樸素貝葉斯分類的原理,該電影的評分為5分,但實際該電影的評分很可能是1分

所以,從上面的那個例子可以說明,這是一種比較粗糙的分類方式,更適用於非A即B的分類方式,並不能準確地反應用戶對一部電影的喜好程度。所以,這裡就涉及到可以引入資料期望的方法,至於具體的優化方式,不再贅述。

應用

颶風與蛋撻的故事

沃爾瑪公司注意到,每當在季節性颶風來臨之前,不僅手電筒銷售量增加了,而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此,當季節性風暴來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便行色匆匆的顧客從而增加銷量。

沃爾瑪非常聰明的將資料分析的成果應用到他們的銷售策略中,而你們如果想要成為一名資料分析師,也應該不斷在實踐中去運用資料分析的成果,才能真正成長起來。

寫在最後

無論是傳統的統計學分析,還是時髦的大資料分析,它們的本質都是一脈相承的:對資料價值的挖掘與探索。只有在長期的實踐中不斷培養對資料的敏感性,不斷努力向前,你才能成為一名優秀的資料分析師/產品運營/產品經理。《冰與火之歌:資料分析的前世今生》系列就到這裡。

以下是這個系列文章的參考書目,可以一讀:

《大資料時代》《深入淺出資料分析》《金字塔原理》《增長駭客》

收集

資料收集的核心:在於收集的最好是“全量”資料,至少是盡可能多維度的資料

(1)屁股坐姿與防盜系統——資料維度

很少有人會認為一個人的坐姿能表現什麼資訊,但是日本先進工業技術研究所的教授越水重臣認為可以。當一個人坐著的時候,他的身形、姿勢和重量分佈都可以量化和資料化。越水重臣的團隊通過在汽車座椅下部安裝總共360個壓力感測器以測量人對椅子施加壓力的方式。把人體屁股特徵轉化成了資料,並且用0~256這個數值範圍對其進行量化,這樣就會產生獨屬於每個乘坐者的精確資料資料。

在這個實驗中,這個系統能根據人體對座位的壓力差異識別出乘坐者的身份,準確率高達98%。有了這個系統之後,汽車就能識別出駕駛者是不是車主;如果不是,系統就會要求司機輸入密碼;如果司機無法準確輸入密碼,汽車就會自動熄火。

如果僅僅只收集身形資料,或者只收集體重,系統都無法準確識別人的身份。大資料分析非常依賴資料的維度,資料的維度越多,資料量越大,大資料的價值也會倍增,可控分析的內容也會越多。

(2)資料分類

IDC早在2011年的調查報告中就提到,非結構化資料占未來十年新生成資料的90%。所以,資料的收集,不單單是對結構化資料的收集,也包括非結構化資料。

存儲

目前關係型數據庫在可縮放方面幾乎已經達到極限,無法處理如此量大、並且不規則的“非結構資料”的。而解決方案就是使用鍵值(Key-Value)存儲資料庫,這是一種 NoSQL(非關係型數據庫)模型,其資料按照鍵值對的形式進行組織、索引和存儲。KV存儲非常適合不涉及過多資料關係業務關係的業務資料,同時能有效減少讀寫磁片的次數,比SQL資料庫存儲擁有更好的讀寫性能。

下圖是5種用於大資料處理的存儲資料庫:

處理

資料處理的技術可以使用雲計算,而處理資料的方法,便是利用演算法結合資料預測某些事情發生的可能性。比如這兩年風頭正勁的今日頭條,就是一個經典例子。它為使用者推薦有價值的、個性化的資訊,本質就是記錄你的閱讀內容、習慣、口味等,將這些資料標籤化,再利用協同過濾、基於內容推薦等推薦演算法,就能推薦你想看的新聞了。

以大資料分析的一個分支,機器學習演算法為例,整個流程如圖所示:

下麵,我會最經典的樸素貝葉斯分類演算法來給大家講解上面的流程。

1、問題建模

(1)對現實問題進行抽象

假設豆瓣的老大久聞你的大名,給你提了這樣一個需求:

這時,你會對需求進行分析,提取出以下兩個關鍵字:

不同用戶:A喜歡的電影B可能不喜歡,所以我們的模型一定是基於使用者的喜歡的電影:什麼叫喜歡?什麼叫討厭?所以,我們需要量化喜歡的標準,最直接的辦法就是用評分來做,5分代表非常喜歡,1分代表非常討厭。

根據上述分析,我們就可以看出問題的本質,即我們要實現的東西——一個基於使用者的電影評分系統。現在,我們來看看實現這個電影評分系統的兩種方案:

方案一:根據使用者之前評分高的電影,推薦相似的電影方案二:A、B兩個用戶喜歡的電影很相似,可以給A推薦B喜歡的電影

第一種方法,就是基於內容的推薦演算法;而第二種方法,就是基於使用者的協同過濾演算法。假如我們採用第一種方案,問題就可以被轉化為下列表達:

計算電影內容之間的相似度,兩部電影越相似,它們的評分越可能相同

(2)選擇模型

樸素貝葉斯概述

眾所周知,樸素貝葉斯是一種簡單但是非常強大的線性分類器。它在垃圾郵件分類,疾病診斷中都取得了很大的成功。舉個例子,你在街上看到一個黑人,我問你你猜這哥們從哪來的,你十有八九猜非洲。為什麼呢?因為黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用資訊下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。(篇幅所限,這裡沒有講樸素貝葉斯的特徵獨立性以及數學原理,有興趣的朋友請自行百度)

能否適合電影評分系統?

樸素貝葉斯是一個線性分類器,那麼意味著它也能將電影進行分類:

2、準備資料

這個不難,豆瓣老大發了一份電影評分資料給你:

3、抽取特徵

假設我們選取三個特徵:地區、投資、風格,並對特徵進行數位化處理:

地區:美國 1 中國 2……投資:0:0-1億 ,1:1-2億 2:>2億風格:冒險 1 戰爭 2……

4、訓練模型

假設阿強對100部電影進行評分,我們選擇其中80部電影作為訓練樣本,以此訓練樸素貝葉斯模型,則對應下列流程圖的第二步與第三步

繼續以阿強為例,在他看過的80部電影中,評分為5分的電影有20部,則對應的P(5)=20/80=25%,同理可得:

在計算每個類別條件下各個特徵屬性劃分的頻率(由於P(x)對於所有類別來說是常數,所以只用計算分子):

P(美國片|電影評分=5分)= P(所有5分電影中美國片的占比)* P(5) ……

至此,模型訓練完畢,我們就可以用來預測阿強未看過的電影評分了。篇幅所限,如果對整個過程有興趣的同學請自行百度。

5、模型優化

我們可以看到,通過上面的模型只能得到整數型(5、4、3、2、1)的電影評分,所以可能出現下列兩種情況:

用戶對電影A的評分是3.6分,對電影B的評分是3.4分,但是利用樸素貝葉斯分類給出的電影評分電影A就是4分,電影B就是3分;通過條件概率的計算,發現某電影評分為5分、4分、3分、2分、1分的概率分別為20.5%,19.5%,20%,20%,20%,那麼根據樸素貝葉斯分類的原理,該電影的評分為5分,但實際該電影的評分很可能是1分

所以,從上面的那個例子可以說明,這是一種比較粗糙的分類方式,更適用於非A即B的分類方式,並不能準確地反應用戶對一部電影的喜好程度。所以,這裡就涉及到可以引入資料期望的方法,至於具體的優化方式,不再贅述。

應用

颶風與蛋撻的故事

沃爾瑪公司注意到,每當在季節性颶風來臨之前,不僅手電筒銷售量增加了,而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此,當季節性風暴來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便行色匆匆的顧客從而增加銷量。

沃爾瑪非常聰明的將資料分析的成果應用到他們的銷售策略中,而你們如果想要成為一名資料分析師,也應該不斷在實踐中去運用資料分析的成果,才能真正成長起來。

寫在最後

無論是傳統的統計學分析,還是時髦的大資料分析,它們的本質都是一脈相承的:對資料價值的挖掘與探索。只有在長期的實踐中不斷培養對資料的敏感性,不斷努力向前,你才能成為一名優秀的資料分析師/產品運營/產品經理。《冰與火之歌:資料分析的前世今生》系列就到這裡。

以下是這個系列文章的參考書目,可以一讀:

《大資料時代》《深入淺出資料分析》《金字塔原理》《增長駭客》
Next Article
喜欢就按个赞吧!!!
点击关闭提示