去年, 職業社交網站 Linkedin 報導稱, 近年來雇主最重視的技能就是資料技能。 而推崇資料導向文化的穀歌, 其首席經濟學家 Hal R.Varian 博士更完整地闡述了行業真正的資料技能需要——“理解資料、處理資料、從中抽取價值、將其視覺化、並表達其中的意義, 這是未來十年及其重要的技能。 ”簡而言之, 就是用資料講故事的能力。
谷歌首席經濟學家 Hal R. Varian 博士
不管是朝你砸玩具的熊小孩, 還是不知道如何溝通的客戶, 最好解決辦法無非是:給你講個故事。 要讓你的老闆、客戶或者從未謀面的聽眾“聽話”, 最好的辦法, 就是放棄容易引發資料恐懼症的Excel 表格, 拿出視覺化工具, 用資料講故事。
舉個例子。 如果你想說明“男性與女性在駕駛分心因素中的差異”, 你可以這樣說:
6%的男人和4.2%的女性覺得發短信聊天是駕駛中分心的原因;
車裡有小孩是9.8%的男性和26.3%的女性駕駛分心的原因。
或者, 你可以這樣說:
上圖是兒童慈善機構 kids4kars.org 的作品。
你更喜歡哪一種敘事方式?
我們都愛聽故事講故事很簡單、也很難。 在很多資料驅動的團隊裡, 大家很容易覺得故事是膚淺的, 覺得事實本身就足夠說服聽眾了, 但是講故事可以最好的體現和解釋資料的價值。
資料為什麼有用?因為資料能告訴我們, 如何更好的制定決策。 很多企業中, 分析的第一步是故事板。 故事板的概念源於電影製作, 安排劇情中的重要鏡頭, 相當於一個視覺化的劇本。 有時候, 不用做複雜的相關分析, 將資料視覺化就能夠講好一個故事。
安斯庫姆四重奏(Anscombe’s Quartet)就是一個很好的例子, 裡面包含裡裡四個資料庫, 每一個的資料總結都非常相似。
但是如果你這些資料視覺化:
是不是聽到了美妙的四重奏!
如何講故事第一步, 故事都有情節。 讓我用一個包含 NASDAQ 100 科技公司新聞標題的資料庫為例子,
Headlines.Securities.Symbol: 依據每一個公司的代碼對資料進行篩選和分組。
Headline.Securities.CategoryorIndustry: 哪一些新聞對其行業具有相關性。 市場情緒也許只針對行業內某一些公司。
Headlines.Title:標題, 理解當天市場情況最重要的因素之一。
Headlines.Date:基於月份和日期分類新聞。
Headlines.Source:新聞來源。
Headlines.Url:新聞連結。
具體步驟1. 回歸復古的紙和筆。
雖然我們生活在數位化的時代, 不過, 有些超棒的資料故事在進入 PPT 之前, 其實是在餐巾紙上畫出來的。 在開始製作故事結構之前, 寫下你的想法和故事流。
亞里斯多德有一個經典的“五大要點”方法:
1)先做一個陳述, 引起觀眾的注意。
2)提出一個需要解決的問題。
3)提出一個解決方法。
4)描述你的解決方法會帶來哪些好處。
5)提出一個行動呼籲。
假設現在我要寫一個報告,如何用資料更好地進行投資決策。做一個折線圖可以分析出這些股價的趨勢。
我們可以看出,2016年2月所有股價都下跌了。我們可以抓取那個時期的新聞,分析到底發生了什麼。
我們可以找到哪一個媒體對某一個股票的報導最多,這個媒體也許就是關於這個股票最好的消息來源。
2. 深挖故事的意義
為什麼你在講這個故事?故事本身並不重要,重要的是故事如何能讓我們更好地進行決策。
用一句話,說明為什麼你對你所做的這件事抱有熱情。
3.取一個強大的標題
一句話概括你的故事、標題和分析。最有效的標題必須簡潔、具體、並告訴讀者你能從中得到什麼好處。
記住,標題是給讀者看的,不是給你自己看的。
4. 設計一個路線圖
寫下你想讓觀眾知道的是什麼,寫下所有的關鍵點。
將你的關鍵點歸類、合併,直到最後你手上有的不是100個關鍵點,而是三個大類。
這三個大類就是你的路線圖。
在每一個大類下面,加上支持你論點的證據,可以包括個人故事、事實、例子、類比等等。
5. 簡短總結
既然已經陳述了所有的要點,現在,就該來一個強大的收尾了。我的報告結尾,在每一個股票後面都寫了三到四行,總結為什麼要買這個股票。
資料類型及適合圖示常見的資料類型如下:
1. 文字資料
文字資料適合研究文字中的情緒,這種資料最適合講故事。
WordCloud 是最適合文字資料的視覺化類型,將最常見的文字放在最中心、字體最大,讓讀者一眼就看出文字要體現的總體思想。
上圖直觀地體現了一個 Twitter 資料庫的內容,一眼就能看出其中最突出的情緒:“陰沉”、“缺失”、“失望”等。
2. 混合資料
當資料中不僅有數位,還有其他的資料形式,我們需要確定哪一種形式最能體現資料中的洞見。
我先以網格分面為例,分析泰坦尼克號乘客的資料。
而下圖直觀地體現了不同性別和艙位級別的生存率。
我們可以看出,女性和頭等艙乘客的生存率稍高一些,而男性、低級別艙位及工作人員的生存率更低。嗯,這和我們從電影中得到的印象一致。
另一種視覺化的方式是多元變數圖。以下使用的資料庫是汽車性能規格資料庫。
這讓人看得一百個頭大。所以我們做出了下圖,這樣不難看出,更重的車身會讓汽車跑得更慢。
3. 數位資料
通常對於數位資料我們要找的是趨勢。
橫軸是時間,縱軸是票價,黑色線是成人,灰色線是小孩。我們可以清楚看到在這個遊樂園,成人和小孩的價格都上漲了,而且對每一年上漲的程度也有個直觀的感覺。
4. 股票
股票市場的資訊基本上就是一個時間序列資料,而投資人希望能夠理解每一個時間點與價格下跌。
下圖的 K 線圖是一個很好的例子。
我們可以看看特斯拉的股價。2016年2月特斯拉股價出現了較大的下跌,我們可以去調查當時的市場情況和經濟環境,在未來更好地進行股票投資。
5. 地理資料
把不同地區的資訊標記在地圖上,能讓分析更加清楚和有意義。
上圖中,我們可以看到2002年世界盃各國到進球數,德國的進球數最高。
預測性模型如何講故事我們先來理解建造模型的步驟,看看故事能在其中發揮什麼作用。
1. 資料探索
建立模型的第一步是理解你的資料。不一定先得進行複雜的統計計算。
我們來看看紅酒品質的資料庫,資料庫的結構如下:
以下是資料總結
如果我們想知道酒精量和紅酒品質之間的關係,該怎麼辦?
我們可以計算 Pearson R值,可以説明打造一個模型。但是對於分析沒有什麼用。
這意味著酒精量和紅酒品質之間有很強的關聯。此外你還瞭解到了什麼?並沒有。
所以我們來將資料視覺化一下:
首先,我們看到更高的酒精量與更好的紅酒品質相關,我們也可以更清楚地看到有一些例外存在。
然後,你覺得紅酒的酸度與品質有關嗎?
我們可以用小提琴圖來體現酸度,小提琴圖能體現在哪些區域內有更多的資料點。
2. 特徵視覺化
生成了特徵之後,你如何看到預測得如何?
我們可以以主成分分析(PCA)為例。關於 PCA 更深入的內容可以看這篇文章。
這是 RStudio 中的 Iris 資料庫。
我們進行 PCA 的時候會發現這些資料:
一直盯著這張表可能也看不出什麼。如果做成視覺化圖表,我們得到的資訊會更多。
3. 創造和比較模型
這個模型能基於道路顛簸度的情況,預測車輛應該走快一點還是放慢一點。
決策邊界將大部分數據清楚分類了,不過,88.21%的精確度並不算一個故事。
以下是另一個使用 Iris 資料庫的例子:
要推導出有價值的內容,這裡的資訊不夠多。要更深入地瞭解支援向量機,可以看這篇文章。
另一方面,這張圖表展示了一個清楚的分類邊界。
講故事的實用貼士圖表一定要標記好橫軸和縱軸,寫好恰當的標題。
必要的時候使用圖例。
使用視覺上比較柔和的顏色。
避免增加非必須的資訊,例如過於複雜、降低可讀性的背景或主題。
基於橫縱位置資訊、要同時編碼兩個量值的話,只能使用一個點。
製作時間序列編碼的時候,不要用點進行視覺化。
結束語資料中特徵與資料的關係,數位揭示不了的,但故事和圖表可以。故事可以在各種情況下更好地解釋細節。現在,你也可以開始講述你的資料故事了。
本文由北郵@愛可哥-愛生活老師推薦,阿裡云云棲社區組織整理。
文章原標題:《The Art of Story Telling in Data Science and how to create data stories?》文章為簡譯。
譯者:炫。
本文由使用者為個人學習及研究之目的自行翻譯發表,如發現侵犯原作者的版權,
請與社區聯繫處理yqgroup@service.aliyun.com
5)提出一個行動呼籲。
假設現在我要寫一個報告,如何用資料更好地進行投資決策。做一個折線圖可以分析出這些股價的趨勢。
我們可以看出,2016年2月所有股價都下跌了。我們可以抓取那個時期的新聞,分析到底發生了什麼。
我們可以找到哪一個媒體對某一個股票的報導最多,這個媒體也許就是關於這個股票最好的消息來源。
2. 深挖故事的意義
為什麼你在講這個故事?故事本身並不重要,重要的是故事如何能讓我們更好地進行決策。
用一句話,說明為什麼你對你所做的這件事抱有熱情。
3.取一個強大的標題
一句話概括你的故事、標題和分析。最有效的標題必須簡潔、具體、並告訴讀者你能從中得到什麼好處。
記住,標題是給讀者看的,不是給你自己看的。
4. 設計一個路線圖
寫下你想讓觀眾知道的是什麼,寫下所有的關鍵點。
將你的關鍵點歸類、合併,直到最後你手上有的不是100個關鍵點,而是三個大類。
這三個大類就是你的路線圖。
在每一個大類下面,加上支持你論點的證據,可以包括個人故事、事實、例子、類比等等。
5. 簡短總結
既然已經陳述了所有的要點,現在,就該來一個強大的收尾了。我的報告結尾,在每一個股票後面都寫了三到四行,總結為什麼要買這個股票。
資料類型及適合圖示常見的資料類型如下:
1. 文字資料
文字資料適合研究文字中的情緒,這種資料最適合講故事。
WordCloud 是最適合文字資料的視覺化類型,將最常見的文字放在最中心、字體最大,讓讀者一眼就看出文字要體現的總體思想。
上圖直觀地體現了一個 Twitter 資料庫的內容,一眼就能看出其中最突出的情緒:“陰沉”、“缺失”、“失望”等。
2. 混合資料
當資料中不僅有數位,還有其他的資料形式,我們需要確定哪一種形式最能體現資料中的洞見。
我先以網格分面為例,分析泰坦尼克號乘客的資料。
而下圖直觀地體現了不同性別和艙位級別的生存率。
我們可以看出,女性和頭等艙乘客的生存率稍高一些,而男性、低級別艙位及工作人員的生存率更低。嗯,這和我們從電影中得到的印象一致。
另一種視覺化的方式是多元變數圖。以下使用的資料庫是汽車性能規格資料庫。
這讓人看得一百個頭大。所以我們做出了下圖,這樣不難看出,更重的車身會讓汽車跑得更慢。
3. 數位資料
通常對於數位資料我們要找的是趨勢。
橫軸是時間,縱軸是票價,黑色線是成人,灰色線是小孩。我們可以清楚看到在這個遊樂園,成人和小孩的價格都上漲了,而且對每一年上漲的程度也有個直觀的感覺。
4. 股票
股票市場的資訊基本上就是一個時間序列資料,而投資人希望能夠理解每一個時間點與價格下跌。
下圖的 K 線圖是一個很好的例子。
我們可以看看特斯拉的股價。2016年2月特斯拉股價出現了較大的下跌,我們可以去調查當時的市場情況和經濟環境,在未來更好地進行股票投資。
5. 地理資料
把不同地區的資訊標記在地圖上,能讓分析更加清楚和有意義。
上圖中,我們可以看到2002年世界盃各國到進球數,德國的進球數最高。
預測性模型如何講故事我們先來理解建造模型的步驟,看看故事能在其中發揮什麼作用。
1. 資料探索
建立模型的第一步是理解你的資料。不一定先得進行複雜的統計計算。
我們來看看紅酒品質的資料庫,資料庫的結構如下:
以下是資料總結
如果我們想知道酒精量和紅酒品質之間的關係,該怎麼辦?
我們可以計算 Pearson R值,可以説明打造一個模型。但是對於分析沒有什麼用。
這意味著酒精量和紅酒品質之間有很強的關聯。此外你還瞭解到了什麼?並沒有。
所以我們來將資料視覺化一下:
首先,我們看到更高的酒精量與更好的紅酒品質相關,我們也可以更清楚地看到有一些例外存在。
然後,你覺得紅酒的酸度與品質有關嗎?
我們可以用小提琴圖來體現酸度,小提琴圖能體現在哪些區域內有更多的資料點。
2. 特徵視覺化
生成了特徵之後,你如何看到預測得如何?
我們可以以主成分分析(PCA)為例。關於 PCA 更深入的內容可以看這篇文章。
這是 RStudio 中的 Iris 資料庫。
我們進行 PCA 的時候會發現這些資料:
一直盯著這張表可能也看不出什麼。如果做成視覺化圖表,我們得到的資訊會更多。
3. 創造和比較模型
這個模型能基於道路顛簸度的情況,預測車輛應該走快一點還是放慢一點。
決策邊界將大部分數據清楚分類了,不過,88.21%的精確度並不算一個故事。
以下是另一個使用 Iris 資料庫的例子:
要推導出有價值的內容,這裡的資訊不夠多。要更深入地瞭解支援向量機,可以看這篇文章。
另一方面,這張圖表展示了一個清楚的分類邊界。
講故事的實用貼士圖表一定要標記好橫軸和縱軸,寫好恰當的標題。
必要的時候使用圖例。
使用視覺上比較柔和的顏色。
避免增加非必須的資訊,例如過於複雜、降低可讀性的背景或主題。
基於橫縱位置資訊、要同時編碼兩個量值的話,只能使用一個點。
製作時間序列編碼的時候,不要用點進行視覺化。
結束語資料中特徵與資料的關係,數位揭示不了的,但故事和圖表可以。故事可以在各種情況下更好地解釋細節。現在,你也可以開始講述你的資料故事了。
本文由北郵@愛可哥-愛生活老師推薦,阿裡云云棲社區組織整理。
文章原標題:《The Art of Story Telling in Data Science and how to create data stories?》文章為簡譯。
譯者:炫。
本文由使用者為個人學習及研究之目的自行翻譯發表,如發現侵犯原作者的版權,
請與社區聯繫處理yqgroup@service.aliyun.com