您的位置:首頁>正文

谷歌經濟學家推崇的資料藝術,現在教你入門

簡介

去年, 職業社交網站 Linkedin 報導稱, 近年來雇主最重視的技能就是資料技能。 而推崇資料導向文化的穀歌, 其首席經濟學家 Hal R.Varian 博士更完整地闡述了行業真正的資料技能需要——“理解資料、處理資料、從中抽取價值、將其視覺化、並表達其中的意義, 這是未來十年及其重要的技能。 ”簡而言之, 就是用資料講故事的能力。

谷歌首席經濟學家 Hal R. Varian 博士

不管是朝你砸玩具的熊小孩, 還是不知道如何溝通的客戶, 最好解決辦法無非是:給你講個故事。 要讓你的老闆、客戶或者從未謀面的聽眾“聽話”, 最好的辦法, 就是放棄容易引發資料恐懼症的Excel 表格, 拿出視覺化工具, 用資料講故事。

舉個例子。 如果你想說明“男性與女性在駕駛分心因素中的差異”, 你可以這樣說:

6%的男人和4.2%的女性覺得發短信聊天是駕駛中分心的原因;

車裡有小孩是9.8%的男性和26.3%的女性駕駛分心的原因。

或者, 你可以這樣說:

上圖是兒童慈善機構 kids4kars.org 的作品。

你更喜歡哪一種敘事方式?

我們都愛聽故事

講故事很簡單、也很難。 在很多資料驅動的團隊裡, 大家很容易覺得故事是膚淺的, 覺得事實本身就足夠說服聽眾了, 但是講故事可以最好的體現和解釋資料的價值。

資料為什麼有用?因為資料能告訴我們, 如何更好的制定決策。 很多企業中, 分析的第一步是故事板。 故事板的概念源於電影製作, 安排劇情中的重要鏡頭, 相當於一個視覺化的劇本。 有時候, 不用做複雜的相關分析, 將資料視覺化就能夠講好一個故事。

安斯庫姆四重奏(Anscombe’s Quartet)就是一個很好的例子, 裡面包含裡裡四個資料庫, 每一個的資料總結都非常相似。

但是如果你這些資料視覺化:

是不是聽到了美妙的四重奏!

如何講故事

第一步, 故事都有情節。 讓我用一個包含 NASDAQ 100 科技公司新聞標題的資料庫為例子,

一步步來分解講故事的步驟。 專案欄包括以下部分:

Headlines.Securities.Symbol: 依據每一個公司的代碼對資料進行篩選和分組。

Headline.Securities.CategoryorIndustry: 哪一些新聞對其行業具有相關性。 市場情緒也許只針對行業內某一些公司。

Headlines.Title:標題, 理解當天市場情況最重要的因素之一。

Headlines.Date:基於月份和日期分類新聞。

Headlines.Source:新聞來源。

Headlines.Url:新聞連結。

具體步驟

1. 回歸復古的紙和筆。

雖然我們生活在數位化的時代, 不過, 有些超棒的資料故事在進入 PPT 之前, 其實是在餐巾紙上畫出來的。 在開始製作故事結構之前, 寫下你的想法和故事流。

亞里斯多德有一個經典的“五大要點”方法:

1)先做一個陳述, 引起觀眾的注意。

2)提出一個需要解決的問題。

3)提出一個解決方法。

4)描述你的解決方法會帶來哪些好處。

5)提出一個行動呼籲。

假設現在我要寫一個報告,如何用資料更好地進行投資決策。做一個折線圖可以分析出這些股價的趨勢。

我們可以看出,2016年2月所有股價都下跌了。我們可以抓取那個時期的新聞,分析到底發生了什麼。

我們可以找到哪一個媒體對某一個股票的報導最多,這個媒體也許就是關於這個股票最好的消息來源。

2. 深挖故事的意義

為什麼你在講這個故事?故事本身並不重要,重要的是故事如何能讓我們更好地進行決策。

用一句話,說明為什麼你對你所做的這件事抱有熱情。

3.取一個強大的標題

一句話概括你的故事、標題和分析。最有效的標題必須簡潔、具體、並告訴讀者你能從中得到什麼好處。

記住,標題是給讀者看的,不是給你自己看的。

4. 設計一個路線圖

寫下你想讓觀眾知道的是什麼,寫下所有的關鍵點。

將你的關鍵點歸類、合併,直到最後你手上有的不是100個關鍵點,而是三個大類。

這三個大類就是你的路線圖。

在每一個大類下面,加上支持你論點的證據,可以包括個人故事、事實、例子、類比等等。

5. 簡短總結

既然已經陳述了所有的要點,現在,就該來一個強大的收尾了。我的報告結尾,在每一個股票後面都寫了三到四行,總結為什麼要買這個股票。

資料類型及適合圖示

常見的資料類型如下:

1. 文字資料

文字資料適合研究文字中的情緒,這種資料最適合講故事。

WordCloud 是最適合文字資料的視覺化類型,將最常見的文字放在最中心、字體最大,讓讀者一眼就看出文字要體現的總體思想。

上圖直觀地體現了一個 Twitter 資料庫的內容,一眼就能看出其中最突出的情緒:“陰沉”、“缺失”、“失望”等。

2. 混合資料

當資料中不僅有數位,還有其他的資料形式,我們需要確定哪一種形式最能體現資料中的洞見。

我先以網格分面為例,分析泰坦尼克號乘客的資料。

而下圖直觀地體現了不同性別和艙位級別的生存率。

我們可以看出,女性和頭等艙乘客的生存率稍高一些,而男性、低級別艙位及工作人員的生存率更低。嗯,這和我們從電影中得到的印象一致。

另一種視覺化的方式是多元變數圖。以下使用的資料庫是汽車性能規格資料庫。

這讓人看得一百個頭大。所以我們做出了下圖,這樣不難看出,更重的車身會讓汽車跑得更慢。

3. 數位資料

通常對於數位資料我們要找的是趨勢。

橫軸是時間,縱軸是票價,黑色線是成人,灰色線是小孩。我們可以清楚看到在這個遊樂園,成人和小孩的價格都上漲了,而且對每一年上漲的程度也有個直觀的感覺。

4. 股票

股票市場的資訊基本上就是一個時間序列資料,而投資人希望能夠理解每一個時間點與價格下跌。

下圖的 K 線圖是一個很好的例子。

我們可以看看特斯拉的股價。2016年2月特斯拉股價出現了較大的下跌,我們可以去調查當時的市場情況和經濟環境,在未來更好地進行股票投資。

5. 地理資料

把不同地區的資訊標記在地圖上,能讓分析更加清楚和有意義。

上圖中,我們可以看到2002年世界盃各國到進球數,德國的進球數最高。

預測性模型如何講故事

我們先來理解建造模型的步驟,看看故事能在其中發揮什麼作用。

1. 資料探索

建立模型的第一步是理解你的資料。不一定先得進行複雜的統計計算。

我們來看看紅酒品質的資料庫,資料庫的結構如下:

以下是資料總結

如果我們想知道酒精量和紅酒品質之間的關係,該怎麼辦?

我們可以計算 Pearson R值,可以説明打造一個模型。但是對於分析沒有什麼用。

這意味著酒精量和紅酒品質之間有很強的關聯。此外你還瞭解到了什麼?並沒有。

所以我們來將資料視覺化一下:

首先,我們看到更高的酒精量與更好的紅酒品質相關,我們也可以更清楚地看到有一些例外存在。

然後,你覺得紅酒的酸度與品質有關嗎?

我們可以用小提琴圖來體現酸度,小提琴圖能體現在哪些區域內有更多的資料點。

2. 特徵視覺化

生成了特徵之後,你如何看到預測得如何?

我們可以以主成分分析(PCA)為例。關於 PCA 更深入的內容可以看這篇文章。

這是 RStudio 中的 Iris 資料庫。

我們進行 PCA 的時候會發現這些資料:

一直盯著這張表可能也看不出什麼。如果做成視覺化圖表,我們得到的資訊會更多。

3. 創造和比較模型

這個模型能基於道路顛簸度的情況,預測車輛應該走快一點還是放慢一點。

決策邊界將大部分數據清楚分類了,不過,88.21%的精確度並不算一個故事。

以下是另一個使用 Iris 資料庫的例子:

要推導出有價值的內容,這裡的資訊不夠多。要更深入地瞭解支援向量機,可以看這篇文章。

另一方面,這張圖表展示了一個清楚的分類邊界。

講故事的實用貼士

圖表一定要標記好橫軸和縱軸,寫好恰當的標題。

必要的時候使用圖例。

使用視覺上比較柔和的顏色。

避免增加非必須的資訊,例如過於複雜、降低可讀性的背景或主題。

基於橫縱位置資訊、要同時編碼兩個量值的話,只能使用一個點。

製作時間序列編碼的時候,不要用點進行視覺化。

結束語

資料中特徵與資料的關係,數位揭示不了的,但故事和圖表可以。故事可以在各種情況下更好地解釋細節。現在,你也可以開始講述你的資料故事了。

本文由北郵@愛可哥-愛生活老師推薦,阿裡云云棲社區組織整理。

文章原標題:《The Art of Story Telling in Data Science and how to create data stories?》文章為簡譯。

譯者:炫。

本文由使用者為個人學習及研究之目的自行翻譯發表,如發現侵犯原作者的版權,

請與社區聯繫處理yqgroup@service.aliyun.com

5)提出一個行動呼籲。

假設現在我要寫一個報告,如何用資料更好地進行投資決策。做一個折線圖可以分析出這些股價的趨勢。

我們可以看出,2016年2月所有股價都下跌了。我們可以抓取那個時期的新聞,分析到底發生了什麼。

我們可以找到哪一個媒體對某一個股票的報導最多,這個媒體也許就是關於這個股票最好的消息來源。

2. 深挖故事的意義

為什麼你在講這個故事?故事本身並不重要,重要的是故事如何能讓我們更好地進行決策。

用一句話,說明為什麼你對你所做的這件事抱有熱情。

3.取一個強大的標題

一句話概括你的故事、標題和分析。最有效的標題必須簡潔、具體、並告訴讀者你能從中得到什麼好處。

記住,標題是給讀者看的,不是給你自己看的。

4. 設計一個路線圖

寫下你想讓觀眾知道的是什麼,寫下所有的關鍵點。

將你的關鍵點歸類、合併,直到最後你手上有的不是100個關鍵點,而是三個大類。

這三個大類就是你的路線圖。

在每一個大類下面,加上支持你論點的證據,可以包括個人故事、事實、例子、類比等等。

5. 簡短總結

既然已經陳述了所有的要點,現在,就該來一個強大的收尾了。我的報告結尾,在每一個股票後面都寫了三到四行,總結為什麼要買這個股票。

資料類型及適合圖示

常見的資料類型如下:

1. 文字資料

文字資料適合研究文字中的情緒,這種資料最適合講故事。

WordCloud 是最適合文字資料的視覺化類型,將最常見的文字放在最中心、字體最大,讓讀者一眼就看出文字要體現的總體思想。

上圖直觀地體現了一個 Twitter 資料庫的內容,一眼就能看出其中最突出的情緒:“陰沉”、“缺失”、“失望”等。

2. 混合資料

當資料中不僅有數位,還有其他的資料形式,我們需要確定哪一種形式最能體現資料中的洞見。

我先以網格分面為例,分析泰坦尼克號乘客的資料。

而下圖直觀地體現了不同性別和艙位級別的生存率。

我們可以看出,女性和頭等艙乘客的生存率稍高一些,而男性、低級別艙位及工作人員的生存率更低。嗯,這和我們從電影中得到的印象一致。

另一種視覺化的方式是多元變數圖。以下使用的資料庫是汽車性能規格資料庫。

這讓人看得一百個頭大。所以我們做出了下圖,這樣不難看出,更重的車身會讓汽車跑得更慢。

3. 數位資料

通常對於數位資料我們要找的是趨勢。

橫軸是時間,縱軸是票價,黑色線是成人,灰色線是小孩。我們可以清楚看到在這個遊樂園,成人和小孩的價格都上漲了,而且對每一年上漲的程度也有個直觀的感覺。

4. 股票

股票市場的資訊基本上就是一個時間序列資料,而投資人希望能夠理解每一個時間點與價格下跌。

下圖的 K 線圖是一個很好的例子。

我們可以看看特斯拉的股價。2016年2月特斯拉股價出現了較大的下跌,我們可以去調查當時的市場情況和經濟環境,在未來更好地進行股票投資。

5. 地理資料

把不同地區的資訊標記在地圖上,能讓分析更加清楚和有意義。

上圖中,我們可以看到2002年世界盃各國到進球數,德國的進球數最高。

預測性模型如何講故事

我們先來理解建造模型的步驟,看看故事能在其中發揮什麼作用。

1. 資料探索

建立模型的第一步是理解你的資料。不一定先得進行複雜的統計計算。

我們來看看紅酒品質的資料庫,資料庫的結構如下:

以下是資料總結

如果我們想知道酒精量和紅酒品質之間的關係,該怎麼辦?

我們可以計算 Pearson R值,可以説明打造一個模型。但是對於分析沒有什麼用。

這意味著酒精量和紅酒品質之間有很強的關聯。此外你還瞭解到了什麼?並沒有。

所以我們來將資料視覺化一下:

首先,我們看到更高的酒精量與更好的紅酒品質相關,我們也可以更清楚地看到有一些例外存在。

然後,你覺得紅酒的酸度與品質有關嗎?

我們可以用小提琴圖來體現酸度,小提琴圖能體現在哪些區域內有更多的資料點。

2. 特徵視覺化

生成了特徵之後,你如何看到預測得如何?

我們可以以主成分分析(PCA)為例。關於 PCA 更深入的內容可以看這篇文章。

這是 RStudio 中的 Iris 資料庫。

我們進行 PCA 的時候會發現這些資料:

一直盯著這張表可能也看不出什麼。如果做成視覺化圖表,我們得到的資訊會更多。

3. 創造和比較模型

這個模型能基於道路顛簸度的情況,預測車輛應該走快一點還是放慢一點。

決策邊界將大部分數據清楚分類了,不過,88.21%的精確度並不算一個故事。

以下是另一個使用 Iris 資料庫的例子:

要推導出有價值的內容,這裡的資訊不夠多。要更深入地瞭解支援向量機,可以看這篇文章。

另一方面,這張圖表展示了一個清楚的分類邊界。

講故事的實用貼士

圖表一定要標記好橫軸和縱軸,寫好恰當的標題。

必要的時候使用圖例。

使用視覺上比較柔和的顏色。

避免增加非必須的資訊,例如過於複雜、降低可讀性的背景或主題。

基於橫縱位置資訊、要同時編碼兩個量值的話,只能使用一個點。

製作時間序列編碼的時候,不要用點進行視覺化。

結束語

資料中特徵與資料的關係,數位揭示不了的,但故事和圖表可以。故事可以在各種情況下更好地解釋細節。現在,你也可以開始講述你的資料故事了。

本文由北郵@愛可哥-愛生活老師推薦,阿裡云云棲社區組織整理。

文章原標題:《The Art of Story Telling in Data Science and how to create data stories?》文章為簡譯。

譯者:炫。

本文由使用者為個人學習及研究之目的自行翻譯發表,如發現侵犯原作者的版權,

請與社區聯繫處理yqgroup@service.aliyun.com

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示