雷鋒網 AI 研習社按:本篇是來自 Schibsted 多媒體組的資料科學經理 Alex 發佈于 Medium 上的一篇文章, 作者結合自身四年的行業經驗, 詳細介紹了實際的資料科學工作, 以及如何管理好資料科學團隊, 雷鋒網 AI 研習社對原文進行了編譯整理。
本文為上篇, 主要講了實際的資料科學工作。 下篇講了如何管理好資料科學團隊。
2014 年我加入 Schibsted 傳媒集團的一個小團隊, 當時是第六位元資料科學家。 這些年, 我在這家公司研究了許多資料科學方法, 目前該公司已經有 40 多名資料科學家了。 在這篇文章中, 我將回顧過去四年所學到的經驗-——首先是作為資料科學家的經驗,
這篇文章仿效 Robert Chang「在推特搞資料科學」一文, 他的那篇文章非常有價值。 我希望能為世界各地的資料科學家和資料科學管理人員提供同樣有價值的思考。
這篇文章分為兩部分:
第一部分:資料科學家的實際工作
第二部分:如何管理資料科學家團隊
第一部分著重于描述資料科學家要做的實際工作, 而第二部分則討論如何管理資料科學團隊以獲得最大的影響力。 我認為這兩個部分對科學家和管理者來說是相互聯繫的。
我不會花很多時間來界定怎樣才算或不算資料科學家 , 網上已經有很多文章來討論這一點了。
關於 Schibsted:這是一家在全球 20 多個國家擁有用戶和市場的媒體公司,
汽車定價
預測可能的新聞訂閱者
推斷使用者屬性
說完這些, 讓我們進入正題吧!
第一部分:現實世界中的資料科學充滿雄心壯志, 在一家公司當資料科學家, 這真的很讓人興奮, 但也會讓人望而生畏。 比如:周圍人對自己的期望是什麼?同齡人有什麼技能?應該怎樣工作才能對公司有用?
作為一位元被吹得天花亂墜的資料科學家, 有時很難覺得自己不是騙子。
由於擔心被認為是在做一些容易的事情, 資料科學家常常被迫選擇首先關注更複雜的情形。 這就引出了第一課。
1. 太複雜會增加成本——從簡單的開始他們聘請了一名資料科學家,
![](/images/lazyload.gif)
不要被複雜的事物所誘惑
這種假設常常會使你誤入歧途, 從而不能成為一名真正的資料科學家。
首先, 你在行業中遇到的問題通常可以用相當簡單的方法來解決。
其次,
那麼, 怎麼知道最簡單的方法是否足夠好呢?
2. 總有基準如果沒有比較模型性能的基準, 那麼你的評估指標可能毫無意義。
![](/images/lazyload.gif)
我們建立了一個模型(保留模型, retention model)來預測用戶回到我們網站的概率。 基於使用者的行為, 我們的模型大約有15個特徵, ROC-AUC 在 0.8 左右。 與隨機性能的 0.5 相比, 我們對這個結果相當滿意。
但當我們把模型分解為兩個最有預測能力的特徵:recency(最近訪問的那一天)和 frequency(過去訪問的天數), 通過這兩個變數的 logistic 回歸, ROC-AUC 達到了 78% 。 換句話說, 我們可以扔掉多餘 85% 的特徵來達到超過 97% 的性能。
我有很多次看到資料科學家基於複雜的模型報告離線實驗結果, 沒有任何比較基準。 每當你看到這種情況, 你都應該問:我們能用一個更簡單的模型取得同樣的結果嗎?
3. 使用你所擁有的資料一天, 我和一名資料工程師、一名資料科學家共進午餐。 這位科學家談到,只要他有 X,Y,Z 的資料,就能做出令人驚奇的事情。他的眼神都在發光。但工程師突然說道:“你們資料科學家總是在談論你獲取了實際獲取不到的資料時能做什麼。那麼就你所擁有的資料你能做些什麼呢?!”
![](/images/lazyload.gif)
這聽起來很刺耳,但工程師表達了一個重要的真理:永遠也不會有完美的資料集,而且總會有你可以使用的資料。在大多數情況下,你可以用你的資料做點什麼。
4. 擁有資料與上述觀點相關的是,資料品質和完整性幾乎總是同一個問題。你需要去獲取你需要的資料,而不是坐在那裡等待某人把資料給你。
![](/images/lazyload.gif)
我不是在討論資料治理模型中的真正所有權。我的意思是擴展你的角色,説明你找到自己需要的資料。
這可能有助於資料收集的模式和格式,這可能意味著查看 Web 應用程式前端執行的 JavaScript 代碼,以確保在合適的時候才觸發事件。或者這可能意味著建立資料管道——不要期望資料工程師來為你做好一切。
5. 忘記資料這似乎與我上面說的一切相矛盾,非常重要的一點是不要太受束縛於手頭的資料。
![](/images/lazyload.gif)
空白的黑板
當出現一個新問題時,首先應該嘗試忘記資料。為什麼?現有的資料會限制你想出更多的解決辦法,它會分散你尋找最佳方法的注意力。你會陷入局部最優,只在手頭已有資料的基礎上思考問題(開發勝於研究)。
6. 形成一種微妙的因果性我們都知道相關性並不意味著存在因果關係。問題在於,許多資料科學家都止步于此,並回避做出因果聲明。
懦夫對因果關係的探討
為什麼那是個問題?因為產品經理、行銷團隊、CEO,或者和你一起工作的人都不在乎相關性。他們更關心因果關係。
產品經理希望當她決定推出這個新功能時,有信心將訂單量提高 10%。行銷團隊希望知道,電子郵件數量從每週 2 封增加到 4 封不會導致人們退出郵寄清單。CEO 想知道,投資於更精准的功能可以帶來廣告收入的增加。
那麼有折中辦法嗎?似乎有兩個。
最著名的是線上實驗。基本上你會進行隨機試驗 —— A/B 測試是最常見的。想法很簡單,隨機選擇目標群體和對照組,如果發現兩組之間有統計學上的顯著差異,我們所採用的辦法就被認為是因果參數。
另一個不太有名的因果關係推斷方法是因果模型。這裡的想法是,你假設世界的因果結構,然後你使用觀察(非實驗)資料來檢驗這些假設是否與預測資料一致,或者估計不同因果效應的強度。Adam Kelleher寫了一系列很好的因果資料科學文章,我推薦閱讀下。除此之外,因果關係分析的聖經資料是 Judea Pearl 的因果關係(Causality)。
根據我的經驗,大多數資料科學家在構建機器學習模型和離線評估方面有豐富的經驗。而在線上評估和實驗方面有經驗的資料科學家要少得多。原因很簡單:你可以從 Kaggle 上下載一個資料集,訓練一個模型,並在幾分鐘內對它進行線下評估。另一方面,對該模型進行線上評估,需要訪問真實世界。即使你在一家擁有數百萬用戶的互聯網公司工作,你也常常需要越過層層關卡找到一個針對當前使用者的機器學習模型。
現在,很少有資料科學家有廣泛的線上評估以及因果模型推斷的經驗,出現這一現象的原因有很多。其中一個原因是大多數因果關係的文獻都是相當理論性的,對於如何在現實世界中構建因果模型並沒有實際的指導意義。我預測在未來幾年我們會看到更多關於因果建模的實用指南。
形成微妙的因果關係觀意味著你可以給股東提供可行的建議,同時也能保證科學性。
via:4 Years of Data Science at Schibsted Media Group,雷鋒網 AI 研習社編譯整理。
這位科學家談到,只要他有 X,Y,Z 的資料,就能做出令人驚奇的事情。他的眼神都在發光。但工程師突然說道:“你們資料科學家總是在談論你獲取了實際獲取不到的資料時能做什麼。那麼就你所擁有的資料你能做些什麼呢?!”![](/images/lazyload.gif)
這聽起來很刺耳,但工程師表達了一個重要的真理:永遠也不會有完美的資料集,而且總會有你可以使用的資料。在大多數情況下,你可以用你的資料做點什麼。
4. 擁有資料與上述觀點相關的是,資料品質和完整性幾乎總是同一個問題。你需要去獲取你需要的資料,而不是坐在那裡等待某人把資料給你。
![](/images/lazyload.gif)
我不是在討論資料治理模型中的真正所有權。我的意思是擴展你的角色,説明你找到自己需要的資料。
這可能有助於資料收集的模式和格式,這可能意味著查看 Web 應用程式前端執行的 JavaScript 代碼,以確保在合適的時候才觸發事件。或者這可能意味著建立資料管道——不要期望資料工程師來為你做好一切。
5. 忘記資料這似乎與我上面說的一切相矛盾,非常重要的一點是不要太受束縛於手頭的資料。
![](/images/lazyload.gif)
空白的黑板
當出現一個新問題時,首先應該嘗試忘記資料。為什麼?現有的資料會限制你想出更多的解決辦法,它會分散你尋找最佳方法的注意力。你會陷入局部最優,只在手頭已有資料的基礎上思考問題(開發勝於研究)。
6. 形成一種微妙的因果性我們都知道相關性並不意味著存在因果關係。問題在於,許多資料科學家都止步于此,並回避做出因果聲明。
懦夫對因果關係的探討
為什麼那是個問題?因為產品經理、行銷團隊、CEO,或者和你一起工作的人都不在乎相關性。他們更關心因果關係。
產品經理希望當她決定推出這個新功能時,有信心將訂單量提高 10%。行銷團隊希望知道,電子郵件數量從每週 2 封增加到 4 封不會導致人們退出郵寄清單。CEO 想知道,投資於更精准的功能可以帶來廣告收入的增加。
那麼有折中辦法嗎?似乎有兩個。
最著名的是線上實驗。基本上你會進行隨機試驗 —— A/B 測試是最常見的。想法很簡單,隨機選擇目標群體和對照組,如果發現兩組之間有統計學上的顯著差異,我們所採用的辦法就被認為是因果參數。
另一個不太有名的因果關係推斷方法是因果模型。這裡的想法是,你假設世界的因果結構,然後你使用觀察(非實驗)資料來檢驗這些假設是否與預測資料一致,或者估計不同因果效應的強度。Adam Kelleher寫了一系列很好的因果資料科學文章,我推薦閱讀下。除此之外,因果關係分析的聖經資料是 Judea Pearl 的因果關係(Causality)。
根據我的經驗,大多數資料科學家在構建機器學習模型和離線評估方面有豐富的經驗。而在線上評估和實驗方面有經驗的資料科學家要少得多。原因很簡單:你可以從 Kaggle 上下載一個資料集,訓練一個模型,並在幾分鐘內對它進行線下評估。另一方面,對該模型進行線上評估,需要訪問真實世界。即使你在一家擁有數百萬用戶的互聯網公司工作,你也常常需要越過層層關卡找到一個針對當前使用者的機器學習模型。
現在,很少有資料科學家有廣泛的線上評估以及因果模型推斷的經驗,出現這一現象的原因有很多。其中一個原因是大多數因果關係的文獻都是相當理論性的,對於如何在現實世界中構建因果模型並沒有實際的指導意義。我預測在未來幾年我們會看到更多關於因果建模的實用指南。
形成微妙的因果關係觀意味著你可以給股東提供可行的建議,同時也能保證科學性。
via:4 Years of Data Science at Schibsted Media Group,雷鋒網 AI 研習社編譯整理。