谷歌經濟學家推崇的資料藝術，現在教你入門

簡介

去年，職業社交網站 Linkedin 報導稱，近年來雇主最重視的技能就是資料技能。而推崇資料導向文化的穀歌，其首席經濟學家 Hal R.Varian 博士更完整地闡述了行業真正的資料技能需要——“理解資料、處理資料、從中抽取價值、將其視覺化、並表達其中的意義，這是未來十年及其重要的技能。 ”簡而言之，就是用資料講故事的能力。

谷歌首席經濟學家 Hal R. Varian 博士

不管是朝你砸玩具的熊小孩，還是不知道如何溝通的客戶，最好解決辦法無非是：給你講個故事。要讓你的老闆、客戶或者從未謀面的聽眾“聽話”，最好的辦法，就是放棄容易引發資料恐懼症的Excel 表格，拿出視覺化工具，用資料講故事。

舉個例子。如果你想說明“男性與女性在駕駛分心因素中的差異”，你可以這樣說：

6%的男人和4.2%的女性覺得發短信聊天是駕駛中分心的原因；

車裡有小孩是9.8%的男性和26.3%的女性駕駛分心的原因。

或者，你可以這樣說：

上圖是兒童慈善機構 kids4kars.org 的作品。

你更喜歡哪一種敘事方式？

我們都愛聽故事

講故事很簡單、也很難。在很多資料驅動的團隊裡，大家很容易覺得故事是膚淺的，覺得事實本身就足夠說服聽眾了，但是講故事可以最好的體現和解釋資料的價值。

資料為什麼有用？因為資料能告訴我們，如何更好的制定決策。很多企業中，分析的第一步是故事板。故事板的概念源於電影製作，安排劇情中的重要鏡頭，相當於一個視覺化的劇本。有時候，不用做複雜的相關分析，將資料視覺化就能夠講好一個故事。

安斯庫姆四重奏（Anscombe’s Quartet）就是一個很好的例子，裡面包含裡裡四個資料庫，每一個的資料總結都非常相似。

但是如果你這些資料視覺化：

是不是聽到了美妙的四重奏！

如何講故事

第一步，故事都有情節。讓我用一個包含 NASDAQ 100 科技公司新聞標題的資料庫為例子，

一步步來分解講故事的步驟。專案欄包括以下部分：

Headlines.Securities.Symbol: 依據每一個公司的代碼對資料進行篩選和分組。

Headline.Securities.CategoryorIndustry: 哪一些新聞對其行業具有相關性。市場情緒也許只針對行業內某一些公司。

Headlines.Title：標題，理解當天市場情況最重要的因素之一。

Headlines.Date：基於月份和日期分類新聞。

Headlines.Source：新聞來源。

Headlines.Url：新聞連結。

具體步驟

1. 回歸復古的紙和筆。

雖然我們生活在數位化的時代，不過，有些超棒的資料故事在進入 PPT 之前，其實是在餐巾紙上畫出來的。在開始製作故事結構之前，寫下你的想法和故事流。

亞里斯多德有一個經典的“五大要點”方法：

1）先做一個陳述，引起觀眾的注意。

2）提出一個需要解決的問題。

3）提出一個解決方法。

4）描述你的解決方法會帶來哪些好處。

5）提出一個行動呼籲。

假設現在我要寫一個報告，如何用資料更好地進行投資決策。做一個折線圖可以分析出這些股價的趨勢。

我們可以看出，2016年2月所有股價都下跌了。我們可以抓取那個時期的新聞，分析到底發生了什麼。

我們可以找到哪一個媒體對某一個股票的報導最多，這個媒體也許就是關於這個股票最好的消息來源。

2. 深挖故事的意義

為什麼你在講這個故事？故事本身並不重要，重要的是故事如何能讓我們更好地進行決策。

用一句話，說明為什麼你對你所做的這件事抱有熱情。

3.取一個強大的標題

一句話概括你的故事、標題和分析。最有效的標題必須簡潔、具體、並告訴讀者你能從中得到什麼好處。

記住，標題是給讀者看的，不是給你自己看的。

4. 設計一個路線圖

寫下你想讓觀眾知道的是什麼，寫下所有的關鍵點。

將你的關鍵點歸類、合併，直到最後你手上有的不是100個關鍵點，而是三個大類。

這三個大類就是你的路線圖。

在每一個大類下面，加上支持你論點的證據，可以包括個人故事、事實、例子、類比等等。

5. 簡短總結

既然已經陳述了所有的要點，現在，就該來一個強大的收尾了。我的報告結尾，在每一個股票後面都寫了三到四行，總結為什麼要買這個股票。

資料類型及適合圖示

常見的資料類型如下：

1. 文字資料

文字資料適合研究文字中的情緒，這種資料最適合講故事。

WordCloud 是最適合文字資料的視覺化類型，將最常見的文字放在最中心、字體最大，讓讀者一眼就看出文字要體現的總體思想。

上圖直觀地體現了一個 Twitter 資料庫的內容，一眼就能看出其中最突出的情緒：“陰沉”、“缺失”、“失望”等。

2. 混合資料

當資料中不僅有數位，還有其他的資料形式，我們需要確定哪一種形式最能體現資料中的洞見。

我先以網格分面為例，分析泰坦尼克號乘客的資料。

而下圖直觀地體現了不同性別和艙位級別的生存率。

我們可以看出，女性和頭等艙乘客的生存率稍高一些，而男性、低級別艙位及工作人員的生存率更低。嗯，這和我們從電影中得到的印象一致。

另一種視覺化的方式是多元變數圖。以下使用的資料庫是汽車性能規格資料庫。

這讓人看得一百個頭大。所以我們做出了下圖，這樣不難看出，更重的車身會讓汽車跑得更慢。

3. 數位資料

通常對於數位資料我們要找的是趨勢。

橫軸是時間，縱軸是票價，黑色線是成人，灰色線是小孩。我們可以清楚看到在這個遊樂園，成人和小孩的價格都上漲了，而且對每一年上漲的程度也有個直觀的感覺。

4. 股票

股票市場的資訊基本上就是一個時間序列資料，而投資人希望能夠理解每一個時間點與價格下跌。

下圖的 K 線圖是一個很好的例子。

我們可以看看特斯拉的股價。2016年2月特斯拉股價出現了較大的下跌，我們可以去調查當時的市場情況和經濟環境，在未來更好地進行股票投資。

5. 地理資料

把不同地區的資訊標記在地圖上，能讓分析更加清楚和有意義。

上圖中，我們可以看到2002年世界盃各國到進球數，德國的進球數最高。

預測性模型如何講故事

我們先來理解建造模型的步驟，看看故事能在其中發揮什麼作用。

1. 資料探索

建立模型的第一步是理解你的資料。不一定先得進行複雜的統計計算。

我們來看看紅酒品質的資料庫，資料庫的結構如下：

以下是資料總結

如果我們想知道酒精量和紅酒品質之間的關係，該怎麼辦？

我們可以計算 Pearson R值，可以説明打造一個模型。但是對於分析沒有什麼用。

這意味著酒精量和紅酒品質之間有很強的關聯。此外你還瞭解到了什麼？並沒有。

所以我們來將資料視覺化一下：

首先，我們看到更高的酒精量與更好的紅酒品質相關，我們也可以更清楚地看到有一些例外存在。

然後，你覺得紅酒的酸度與品質有關嗎？

我們可以用小提琴圖來體現酸度，小提琴圖能體現在哪些區域內有更多的資料點。

2. 特徵視覺化

生成了特徵之後，你如何看到預測得如何？

我們可以以主成分分析（PCA）為例。關於 PCA 更深入的內容可以看這篇文章。

這是 RStudio 中的 Iris 資料庫。

我們進行 PCA 的時候會發現這些資料：

一直盯著這張表可能也看不出什麼。如果做成視覺化圖表，我們得到的資訊會更多。

3. 創造和比較模型

這個模型能基於道路顛簸度的情況，預測車輛應該走快一點還是放慢一點。

決策邊界將大部分數據清楚分類了，不過，88.21%的精確度並不算一個故事。

以下是另一個使用 Iris 資料庫的例子：

要推導出有價值的內容，這裡的資訊不夠多。要更深入地瞭解支援向量機，可以看這篇文章。

另一方面，這張圖表展示了一個清楚的分類邊界。

講故事的實用貼士

圖表一定要標記好橫軸和縱軸，寫好恰當的標題。

必要的時候使用圖例。

使用視覺上比較柔和的顏色。

避免增加非必須的資訊，例如過於複雜、降低可讀性的背景或主題。

基於橫縱位置資訊、要同時編碼兩個量值的話，只能使用一個點。

製作時間序列編碼的時候，不要用點進行視覺化。

結束語

資料中特徵與資料的關係，數位揭示不了的，但故事和圖表可以。故事可以在各種情況下更好地解釋細節。現在，你也可以開始講述你的資料故事了。

本文由北郵@愛可哥-愛生活老師推薦，阿裡云云棲社區組織整理。

文章原標題：《The Art of Story Telling in Data Science and how to create data stories?》文章為簡譯。

譯者：炫。

本文由使用者為個人學習及研究之目的自行翻譯發表，如發現侵犯原作者的版權，

請與社區聯繫處理yqgroup@service.aliyun.com