薪資高到沒朋友的資料科學職位到底是幹啥的？

作者 | Clint Chegin

翻譯 | Sambodhi

編輯 | Natalie， Emily

AI 前線導讀：資料科學家是當下科技行業最火爆的職位，資料科學家這個職業的定義有點廣泛。同樣叫資料科學家，

在不同行業不同公司幹的活可能是很不一樣的。有的偏機器學習、建模，有的偏資料分析。有的叫資料科學家，幹的很多事情跟軟體工程師（SWE）很類似。有的偏產品，風格短平快。有的偏長期研究，看的是一兩年甚至更久的效果。 Indeed 公司產品科學家 Clint Chegin 撰寫了博文 There’s No Such Thing as a Data Scientist，為我們闡述了目前“資料科學家”這一職位的現狀。 Indeed 是全球第一大招聘求職網站， Indeed 每個月擁有來自 60 多個國家和地區的超過兩億獨立訪問用戶。更多乾貨內容請關注微信公眾號“AI 前線”，（ID：ai-front）

你這個工作到底是幹啥的？

在辦公室裡有一幕令人難忘：顧問在決定員工的生產率時，首先會詢問：“你會怎麼形容你在這裡所做的工作？”

這一幕和上面那張圖片很有趣，因為我們對描述我們工作的努力感同身受。然而，在求職過程中發生同樣的誤解時，這可並不好笑。瞭解招聘資訊的準確含義很重要。對未來的雇主來說，最重要的是瞭解我們的技能和能力。我們都看過相同職位的招聘資訊，但實際上它們的描述完全不同。

相同的職位，

怎麼會在每個公司都有如此截然不同的意思呢？

這種現象在資料科學領域越來越普遍。在過去的幾年裡，這門學科的知名度急劇上升。儘管資料科學工作的數量有所增加，但有關這一角色的清晰度卻有所下降。本文引用了 Indeed 的大量行為資料來描述該領域的趨勢，以及對資料科學這一角色進行更為具體的定義。

資料科學日益流行

叫“資料科學家”的工作崗位，在過去四年從 0.03% 上升到 0.15%，這四年時間漲了 400%。

甚至在 2012 年早些時候，就有篇文章大肆宣揚資料科學家是“21 世紀最性感的工作”（Harvard Business Review：Data Scientist: The Sexiest Job of the 21st Century）。如果單靠這個頭街還不夠，也許人們對金錢的原因更感興趣。根據 Indeed 的薪酬資料（https://www.indeed.com/salaries/Data-Scientist-Salaries），一位元資料科學家平均每年賺 13 萬美元。

OK，明白了。資料科學家就像歐洲超市中打折銷售的能多益（Nutella）榛果巧克力醬那樣被搶購一空。隨著這一增長，我們也目睹了該學科領域內更具體角色的細化。我同事 Trey Causey 在《資料產品經理的崛起》（https://medium.com/@treycausey/rise-of-the-data-product-manager-2fb9961b21d1）一文中提到了產品經理和資料科學家之間的融合。

在 Indeed 中，我們許多人也感覺到， “資料科學家”這個頭街最近越來越多地涵蓋了許多不同的職責。我們想深入挖掘並驗證這一直覺：我們能否找到就業市場內角色的自然劃分？我們是否可以用資料來理解這些職位中的差異，並將它們分類得更清晰、更一致？

資料科學中重疊的職業

為了對職位名稱進行分析，我們查看了 2018 年 1 月在 Indeed 上搜索查詢“data scientist”的所有訪客，接下來，我們查看了這些用戶的其他搜索。我們根為每個用戶創建了搜索行為的矩陣，並為每個搜索行為創建了用戶矩陣。我們計算這些矩陣的笛卡爾積來表示任意兩個搜索項之間的頻率：

AI 前線注：關於笛卡爾積（cartesian product），在數學中，兩個集合 X 和 Y 的笛卡兒積，又稱直積，在集合論中表示為 X × Y，是所有可能的有序對組成的集合，其中有序對的第一個對象是 X 的成員，第二個對象是 Y 的成員。

接下來，我們從資料中刪除了“data scientist”，因為這個搜索是針對所有用戶的。我們使用一個名為“igraph”的 R 包進行聚類分析和視覺化。根據 igraph 文檔（http://igraph.org/r/doc/cluster_fast_greedy.html），“該函數實現了用於查找社區結構的快速貪婪模組優化演算法（fast greedy modularity optimization algorithm）。”在研究這個演算法的過程中，我們瞭解到，它的設計是為了快速地從具有稀疏區域的大型資料集創建社區。嗯，這聽起來和我們正在使用的資料完全一樣！

AI 前線（ID：ai-front）注：相關演算法研究可參閱論文：Finding community structure in very large networks（https://arxiv.org/abs/cond-mat/0408187）

這是一個非常重要的方程式，我們在論文中對它的工作原理進行了詳細的解讀。你必須閱讀那篇論文才能理解它的含義。

接下來，我們編寫了一個函數，使用了剪枝參數（pruning parameter）來選擇每個簇中最小的頂點數。這個參數最好通過“猜測和檢查”來測試，因為更高的數字並不一定意味著更多的總數，反之亦然。我們嘗試了 3~20 的不同數字，並檢查這些組是否有意義。我們並不關心真正的小簇，而是希望將這些查詢整合在一起。後面將詳細討論這個問題。

通過選擇五個剪枝閾值，形成四個簇。我們隨後將這些簇標為“商業智慧”、“統計學家”、“機器學習工程師”和“自然科學家”。

以下是組成每個群的查詢：

這就是聚類分析的結果:

從以上圖表中，我們看到了一些有趣的東西。

首先，統計學家和機器學習工程師之間有明確的界限。我們在分析結果中沒有看到這兩個角色之間存在太多的交叉搜索，這表明這兩種是截然不同的職業道路。

其次，商業智慧似乎沒有一個清晰的分組。它廣泛地分散在其他角色中。這與自然科學家的搜索結果形成了鮮明的對比，後者似乎與統計學家的搜索結果重疊了。這告訴我們，尋找商業智慧的求職者可能正在關注資料科學領域內的各種其他工作。這也意味著商業智慧的職位現在更多地被稱為資料科學。此外，尋找機器學習工程師或者統計學家的求職者似乎並沒有搜索這兩個類別的工作。

最後，我們看到一些自然科學家可能通過資料科學的統計資料來進入資料科學領域。

如何更直觀地描述資料科學家這個角色？

根據這些發現，我們可以推斷，所謂的資料科學家不只有一個類型！相反，資料科學家有很多類型。並沒有一個資料科學家的單一描述，因此這個頭街本身並沒有給我們足夠的資訊。資料科學家作為一個頭街，可以在實踐中轉化為各種不同的角色。

綜上所述，收集更多資訊來理解成為某家公司的資料科學家意味著什麼是很重要的。我們認為，這將有助於雇主考慮我們的聚類分析中所確定的角色。這將説明他們找到需要的候選人，並使求職者能夠申請到想要的工作。

在 Indeed，我們有一些“資料”角色：資料工程師、BI 開發人員、BI 分析師、產品科學家和資料科學家。這些職位的關係看起來像這樣的：

很容易看出，這是多麼令人困惑。從我們觀察到的搜索模式中，如果有人說，“我想成為一名資料科學家”，那他可能不清楚哪個團隊或哪個職位是最合適的。每個團隊都有不同的面試流程，並以不同的方式作出貢獻，因此申請正確的面試流程非常重要。

本文來自AI前線，創業家系授權發佈，略經編輯修改，版權歸作者所有，內容僅代表作者獨立觀點。[ 下載創業家APP，讀懂中國最賺錢的7000種生意 ]