「Why - 華文網

2017.12.3受「水滴互助」的朋友相邀，分享了個人在資料分析領域的一些基本方法論。資料產品以沉澱資料分析思路為基本點，這兩個領域略有重合之處。在這裡整理成文章分享給大家。

「Why-What-How」在講解概念和執行上是個不錯的思維模型，這次依例按此框架來拆分「資料分析」。相信很多朋友已經有了較豐富的分析經驗，這裡權且從個人的角度進行梳理，以資參考。為了幫助大家更好地理解本文，先貼出一張思維腦圖：

一、WHY：為什麼要做資料分析

在目前講解資料分析的文章裡，大多數會忽略資料分析本身的目的。這會導致我們在執行時，會出現動作變形的情況。

以終為始，才能保證不會跑偏。

個人的理解上：資料分析是為了能以量化的方式來分析業務問題並得出結論。

其中有兩個重點詞語：量化和業務。

首先講下量化。

量化是為了統一認知，並且確保路徑可回溯，

可複製。統一認知後，才能保證不同層級，不同部門的人在平等話語權和同一個方向進行討論和協作，才能避免公司內的人以「我感覺」「我猜測」來猜測當前業務的情況。

路徑可回溯可複製指的是：通過量化後的結果，許多優化的方法是可以被找到原因並且可以被複製的。同樣是轉化率優化，用 A 方案和 B 方案，誰的效果會比較好和具體好多少，都是可被預測的。

要想做到量化，需要做到三點：建立量化體系，明確量化重點和保證資料準確性。

1.1 建立量化體系

建立量化體系，主要是根據「指標設計方法」，設計業務的「核心指標+拆解指標+業務指標」，最後落地成全公司通用的「指標字典」和「維度字典」。

這種工作一般是由資料分析師或資料 PM 來擔任完成。

通過這種方式，我們就能初步建立面向全公司全面，系統的量化分析框架，保證日常分析可以做到「逐層拆解，不重不漏」。

1.1.1 指標設計方法

講到指標設計方法，大家可能覺得：之前聽過了產品設計方法、程式開發方法，指標這種東西也有設計方法麼？

確實有，指標設計是一套以準確和易懂為準則，集合統計學和業務效果的方法論。

準確是指能夠準確滿足衡量目的，易懂是指標演算法能直觀顯示好與壞，並且指標的演算法也能夠通俗易懂。這兩者很多時候需要有所抉擇，準確是第一位的。舉個例子：當我們想衡量一個群體收入的差異性時，用方差還是用基尼係數？

方差好懂，但不能顯示兩個極端的差異性多大。

基尼係數演算法不好懂，但能準確描述這個問題。

具體到指標設計，我們需要使用一些常用的統計學工具：

以顧客品質分析為例：概況是我們看下顧客的平均支付金額，或者支付中位數，來瞭解顧客概況。如果我們想瞭解這批顧客的品質是都比較好，

還是良莠不齊，則需要通過方差和標準差來描述。如果想知道更詳細的內容，可以瞭解每個區間的用戶數是多少，來做判斷。

有一些 Tips 供大家參考：

比率指標：關注實際效果（下單轉化率，光看下單數是沒有用的）伴生指標：既要看新客數也要看 CAC，確保數量的前提也要確保品質防止壞指標：錯誤指標，虛榮指標，複雜指標

這裡簡單解釋下每個 Tips 的目標。

之所以採取比率指標和伴生指標，是因為能夠明顯反映業務的「效率」且能夠有效防止因為追求單個指標而導致動作變形。

如果說這輛車能跑十萬公里，其實並不能表示這輛車的性能怎麼樣；只有「速率=路程/時間」，才能反映這輛車的效率。

同時，如果片面追求速率，會導致汽車在設計時劍走偏鋒，給駕駛者帶來危險；因此需要再加個「故障率」或「事故率」等伴生指標來確保安全。

壞指標中的「虛榮指標」首次出現《精益資料分析》一書中，作者簡單把「PV/UV」等指標都歸為虛榮指標。

剛開始時我頗為認可，但後續在實際的應用過程中，發現對於很多業務的監控，這些指標並避免不了。後續我便把「虛榮指標」更正為「把距離業務目標過遠的環節定義為核心監控指標」。

對於一個即時通訊 APP 來講，下載次數、啟動用戶數、註冊使用者數需要監控，但不能作為核心監控的指標；更合適的應該是消息數或「進行過對話的使用者數」。

複雜指標往往是各種「指數」，用了很多指標各種加減乘除，這會導致此類指標在發生波動時，很難分析原因。

擁有對指標的定義權和解釋權是個段位非常高的事情，這要求設計者深入瞭解業務和擁有極高的抽象能力。

對於分析師來講，擁有指標定義權將凸顯出你在業務方的重要性——當然，這裡並不是鼓勵大家為了定義指標而定義指標。尋找業界已有量化方法並在公司內推廣，也是件功德無量的事情。

舉個美女外賣的「美女廚師率加權指導值」為例。為避免洩露商業機密，將這個原本用來衡量用戶體驗的指標換成「美女廚師率」，以下背景也稍作修改，大家領會精神即可：

指標的背景是為了保證用戶的用餐體驗，美女外賣總部提出每個城市的商家必須配備一定比例的美女廚師。但城市提出異議：不同城市擁有的商家情況不一樣——大型的商家廚師多，美女廚師率會相對較低，不能用統一的值來對比所有城市。因此總部便設計出來這麼一個指導值：將全國商家進行分層，每個層次的商家得出全國平均值，然後各個城市對標平均值產出自身的對標值，即「美女廚師率加權指導值」。雖然在計算上稍微複雜點，但在實際應用的過程中，BD 們只需要知道總體的差距和每一層商家的差別，很容易針對性的落地和優化。

1.1.2 建立指標體系

在根據「指標設計方法」上，如何建立起圍繞業務的指標體系呢？

核心是根據業務特徵確定核心指標，在核心指標的基礎上以不同的角度進行拆解，然後再慢慢補充其他業務的指標情況。。

拆解的時候，要做到按指標拆解而非維度。比如訂單數，也可以拆解為各品類的訂單數合計，這一點可以通過保持上下兩層指標名稱不一致來避免。拆解的過程依照金字塔方法論的「逐層拆解，不重不漏（MECE）」。若拆解出來或業務補充的指標過多，可借鑒資料倉庫的「域」概念來管理這些指標，如上圖的「交易域」，「商品域」和「用戶域」。

在一個規範的指標體系中，已經涉及到中繼資料管理的領域了。包括針對指標命名的規範，資料存儲和計算的管理等等。大家有興趣地可以搜下相關文章，或閱讀阿裡巴巴新出的《阿裡巴巴大數據實踐之路》。

下面截取一張來自雲棲大會的，關於指標命名規範的 PPT 給大家：

1.1.3 建設指標維度字典

這裡是轉轉公司早期部分的指標維度字典，（Bus Matrix），一定程度上解決了之前公司內對於指標定義不清或不統一的問題。現在這套東西已經產品化，可以在視覺化產品中查看和顯示了。

對於暫沒能力產品化的公司，建議可由分析師們通過 Google Docs 或 Wiki 對一些關鍵和常用的指標進行統一的維護。

對於維度匯流排矩陣，主要是在以維度建模的資料倉庫，設計資料產品，多維度交叉分析時提供框架和基礎。

1.2 明確量化重點

每個階段，都應該明確當前的業務重點；量化體系需要根據業務階段，更改量化重點及方式。

這同時意味著：有更細節的指標及更大的監控和推廣力度。

比如外賣行業早期，經歷了看重訂單數，到訂單額，到新客數+補貼率，到新客數+資金使用效率（交易完成進度/費用完成進度）的歷程。

我們可以看到：隨著戰爭的階段不斷升級和變化，從不計成本打下市場份額，到看中訂單品質，到存量市場爭得差不多了，開始考慮新客數量，同時控制補貼力度，到戰爭趨於常態化，開始控制整體補貼額度，靠拼效率來戰勝對手。每個階段，都需要根據不同的戰場情況來判斷當前重點，從而圍繞該重點建立一套360度無死角的分析監控體系。

1.3 確保資料準確性

在資料準確性這個話題裡，資料產品已經有成熟的資料品質管理方法；涉及了資料來源，指標計算和資料呈現等各個環節的監控。

本文主要從分析師的角度闡述確保準確性的方法，資料產品相關的就先不贅述了。這裡著重講下 Double Check 的技巧，這些技巧可以讓很多管理層或投資人在不瞭解業務的前提下，就能判斷出來資料是否有問題。

量級 Check：每個資料有它的大概範圍，比如 DAU，WAU 和 MAU。計算邏輯 Check：一般對於整體部分型的分數，比如市場份額，那麼它必須滿足：1，取值最大不能超過1；2，各部分加和應為1；3，兩數字加和後，和應該在中間範圍內。業務常識 Check：根據其他常用數位推算出該業務範圍。如果有人跟你說某某社交 APP DAU 過億，你大概知道是否在吹牛，因為日活過億的 APP 就那麼幾個。對於 DAU/MAU，各個行業都有響應的範圍值，淘寶為：34.6%，天貓15.5%，京東15.8%。

1.4 站在業務方的角度

除了「量化」之外，另外一個重點詞語是「業務」。

只有解決業務問題分析才能創造價值。

價值包括個人價值和公司價值。

對於公司來講，你提高了收入水準或者降低了業務成本，對於個人來講，你知道怎麼去利用資料解決業務問題，這對個人的能力成長和職業生涯都有非常大的幫助。

如何站在業務方的角度思考問題呢，總結起來就是八個字「憂其所慮，給其所欲」。

這裡不僅適用于分析師這個崗位，在所有以供需為主要關係的交互過程裡，精准理解對方需求對於供給方都是最重要的。比如 PM 對於用戶，分析師對於業務方，下級對於上級。

在具體的落地過程中，主要是在這以下幾個環節

溝通充分結論簡明提供信息量及可落地建議尋求回饋

在溝通上，確定業務方想要分析什麼，提出更合理專業的衡量和分析方式，同時做好節點同步，切忌一條路走到黑。在分析業務需求上，跟很多產品需求分析方法論是類似的，需要明確所要資料背後的含義。

舉例來講，業務方說要看「頁面停留時長」，但他實際想要的，可能是想衡量用戶品質，那麼「留存率」「目標轉化率」才是更合適的指標。

在闡述分析結果上，要記得結論先行，逐層講解，再提供論據。論據上，圖 > 表 > 文字。因為業務方或管理層時間都是有限的，洋洋灑灑一大篇郵件，未看先暈，誰都沒心思看你到底分析了啥。需要做到：在郵件最前面，用 1-3 句話先把結論給出來，即使需求方不看後續內容都可以瞭解你報告 80% 的內容。

在「提供信息量及可落地建議」上，先要明白什麼叫信息量：提供了對方不知道的資訊。太陽明天從東方升起不算信息量，從西方升起才是。在分析的過程中，一定要從專業的角度，從已知邊界向未知邊界進軍，力求角度新穎論證扎實，並且根據分析內容給出可落地的建議。

舉個簡單例子：

尋求回饋是很多分析過程所缺乏的一步，資料分析給出去後便沒有持續跟進。那你就不知道到底做得對不對。

回饋猶如一面鏡子，讓你及時地調整和優化自己的方法論。

二、WHAT：什麼是資料分析

資料分析的本質是抓住「變」與「不變」。

「變」是資料分析的基礎，如果一個業務每天訂單是 10000 單，或者每天都是以 10% 的速度穩步增長，那就沒有分析的必要了。而若想抓住「變」，得先形成「不變」的意識。

積累「不變」，就是養成「資料常識（Data Common Sense）」的過程。「不變」是根據對歷史資料不斷的觀察和積累而來。一般來說會是個範圍，範圍越精准，你對「變」就越敏感。這裡有三個個人的習慣，可以幫助養成「不變」：

形成習慣，每天上班第一時間查看資料：即時&日周月報記住各個指標大數，反復推算記錄關鍵資料（榜單&報告）

大部分指標沒有記住全部數位的必要，簡單記住大數，萬以下只需要記到萬位元，有些數字只需要記住百分比。而指標之間的推算可以幫助你對各個指標的數量級關係和邏輯脈絡梳理清楚，出現波動時便能更加敏感。記錄關鍵資料是將工作生活遇到的比較有趣的榜單或資料包告保存在一個統一的地方，方便查閱和分析。

在「不變」的基礎上，便能逐漸培養出指標敏感性，即意識指標偏離的能力。這主要是通過各種日環比，周月同比的監控以及日常的好奇心來保持。

這裡插播一則管理林元帥的野史：林彪領軍，有個習慣是記清楚每場戰鬥的繳獲和殲敵的數量和種類。在 1948 遼沈戰役尋找對方軍長的過程中，發現了一個遭遇戰的戰報資料有了細微的變化。他從過去「不變」的基礎意識到了指標偏離：繳獲的短槍與長槍比例，繳獲和擊毀的小車與大車比例及俘虜和擊斃的軍官與士兵比例都比其它戰鬥略高。他根據這個偏離的指標迅速圈定了對方指揮所的所在地，一舉端掉了對方的大本營。

我們從一個 Questmobile 2017 年春季榜單上，來簡單看下「指標偏離」是怎麼應用到日常的分析上的：

這裡先跟大家分享下怎麼看這種榜單：

看整體排行：看哪些 APP 排在前方是出乎你意料之外的分行業看排行：看行業裡排行及其變動看增長率：哪些 APP 增長比較快看使用時長等其他指標

這裡我試著拋出幾個問題：

新浪新聞竟然比騰訊新聞還高？今日頭條竟然比一點資訊低？秒拍竟然比快手高？百度地圖在榜單上比高德高，為什麼去年俞永福還敢宣稱活躍終端數第一位？QQ 的時長已經連續兩個季度月活出現下降了，是否意味著什麼？按增長率排序，最快的王者榮耀，其次是今日頭條，快手，高德地圖。高德既然還算增長得較快的 APP？

資料分析的定義，還有國外一本商務分析的書籍的定義作為注腳：

三、HOW：怎麼進行資料分析

任何資料分析都是「細分，對比，溯源」這三種行為的不斷交叉。最常見的細分對比維度是時間，我們通過時間進行周月同比，發現資料異常後，再進行維度或流程上的細分，一步步拆解找到問題所在。如果找到了某個維度的問題，則需要溯源到業務端或現實端，確認問題產生的源頭。如果多次細分對比下來仍然沒有確認問題，則需要溯源到業務日誌或使用者訪談來更進一步摸清楚情況。

3.1 細分

以下內容在上篇《大資料與使用者研究》中略有提及，這裡再做一個總結。在細分方式上，主要有以下三種方式

橫切：根據某個維度對指標進行切分及交叉分析縱切：以時間變化為軸，切分指標上下游內切：根據某個模型從目標內部進行劃分

橫切上，以轉轉舉例，我們對維度和指標做做了分類和交叉，當某一類的指標出現問題時，我們便知道該從什麼維度進行分析。在進行橫切分析時，經常需要多個維度交叉著使用。這在資料分析術語上叫：交叉多維分析。這也是剛才講的「維度匯流排矩陣」看到的各維度交叉情況了。

縱切上，有目的有路徑，則用漏斗分析。無目的有路徑，則用軌跡分析。無目的無路徑，則用日誌分析。

漏斗分析分為長漏斗和短漏斗。長漏斗的特徵是涉及環節較多，時間週期較長。常用的長漏斗有管道歸因模型，AARRR，使用者生命週期漏斗等等。短漏斗是有明確的目的，時間短，如訂單轉化漏斗和註冊漏斗。在軌跡分析裡，桑基圖是一種常用的方式。常見於各頁面的流轉關係，電商中各品類的轉移關係等等。日誌分析，則通過直接流覽使用者前後端日誌，來分析使用者的每一個動作。

各種手段的細分往往交叉著使用，如訂單漏斗縱切完可以接著橫切，看看是哪個維度的轉化率導致的問題。

3.2 對比

對比主要分為以下幾種：

橫切對比：根據細分中的橫切維度進行對比，如城市和品類縱切對比：與細分中的縱切維護進行對比，如漏斗不同階段的轉化率目標對比：常見於目標管理，如完成率等時間對比：日環比，周月同比；7天滑動平均值對比，7天內極值對比

時間對比嚴格來說屬於橫切對比。但因為時間這個維度在資料分析和產品中極為重要，所以單拎出來說。橫切對比中，有個比較著名的資料應用方式即是「「排行榜」。通過這種簡單粗暴的方式，來驅動人們完成目標，或者佔領人們的認知。前者有銷售完成排行榜。後者有品類售賣暢銷榜。

3.3 溯源

經過反復的細分對比後，基本可以確認問題所在了。這時候就需要和業務方確認是否因為某些業務動作導致的資料異常，包括新版本上線，或者活動策略優化等等。

如果仍然沒有頭緒，那麼只能從最細顆粒度查起了，如

使用者日誌分析使用者訪談外在環境瞭解，如外部活動，政策經濟條件變化等等3.4 衍生模型

在「細分對比」的基礎上，可以衍生出來很多模型。這些模型的意義是能夠幫你快速判斷一個事情的關鍵要素，並做到不重不漏。

這裡列舉幾個以供參考：

Why-How-What5W1H5Why4P模型（產品，價格，管道，宣傳）SWOT 模型（優勢，劣勢，機會，威脅）PEST 模型（政治，經濟，社會，科技）波士頓矩陣

舉個例子：

最近京東和美團外賣可能會發現送貨時長延長，針對物流相關的客訴增加，從 PEST 模型就可以分析出來是否在政治上出了問題。而當你在競品做比對分析時，SWOT 或者 4P 模型能夠給你提供不同的角度。

四、資料分析如何落地

以上講的都偏「道術技」中的「術」部分，下面則通過匯總以上內容，和實際工作進行結合，落地成「技」部分。

4.1 資料分析流程和場景

根據不同的流程和場景，會有些不同的注意點和「術」的結合

4.2 資料分析常見謬誤

控制變數謬誤：在做 A/B 測試時沒有控制好變數，導致測試結果不能反映實驗結果。或者在進行資料對比時，兩個指標沒有可比性。

樣本謬誤：在做抽樣分析時，選取的樣本不夠隨機或不夠有代表性。舉例來講，互聯網圈的人會發現身邊的人幾乎不用「今日頭條」，為什麼這 APP 還能有這麼大流覽量？有個類似的概念，叫倖存者偏差。

定義謬誤：在看某些報告或者公開資料時，經常會有人魚目混珠。「網站訪問量過億」，是指的訪問使用者數還是訪問頁面數？

比率謬誤：比率型或比例型的指標出現的謬誤以至於可以單獨拎出來將。一個是每次談論此類型指標時，都需要明確分子和分母是什麼。另一方面，在討論變化的百分比時，需要注意到基數是多少。有些人即使工資只漲 10% ，那也可能是 150萬…

辛普森悖論：簡單來說，就是在兩個相差較多的分組資料相加時，在分組比較中都佔優勢的一方，會在總評中反而是失勢的一方。

最後以幾句話作為總結，也是全文中心：

資料準確性是第一位的站在業務方的角度思考問題：憂其所慮，予其所欲定義「變」與「不變」細分，對比，溯源

作者：陳新濤，公眾號ourStone

本文由 @陳新濤原創發佈于人人都是產品經理。未經許可，禁止轉載

題圖來自 Unsplash ，基於 CC0 協議

會導致汽車在設計時劍走偏鋒，給駕駛者帶來危險；因此需要再加個「故障率」或「事故率」等伴生指標來確保安全。