IBM眼中的資料科學家是什麼樣的？這有一篇捨不得分享的乾貨文！

編者按：求職者有時會問 IBM 如何定義“資料科學家”這一職位。這是一個重要的問題，因為市場需要越來越多的資料科學家， IBM 分析師Seth Dobrin 在本文中詳細定義了 IBM 眼中的資料科學家。

第一步是區分真正的資料科學家和從事相關工作的其他專業人員（例如資料工程師，業務分析師和 A I應用開發人員）。為了做這個區分，我們首先定義資料科學的含義。

資料科學的核心是運用科學的方法來解決商業問題。

你可以進一步擴展定義，使用人工智慧來解決這些業務問題，進行預測，並優化流程。

根據定義，要實現資料科學的真正潛力，

我們需要具有非常特殊的經驗和技能的資料科學家，具體來說，我們需要具備運行和完成資料科學專案所需經驗和技能的人員：

1、接受過科學訓練，有相關學位

2、具備機器學習和統計方面的專業知識，重點在於決策優化

3、擁有 R， Python 或 Scala 的專業知識

4、能夠轉換和管理大型資料集

5、有能力將上述技能應用于現實世界的商業問題

6、能夠評估模型的性能並進行相應地調整

1、接受科學訓練，有相關學位

這不是關於學位本身，而是關於你在獲得高等學位時學到的東西。簡而言之，學習科學的方法，能夠從複雜而抽象的問題開始，將其分解成一系列可驗證的假設，你設計實驗來測試你的假設，以及你如何分析結果以確定假設是否被證實或證偽。

你也可以在學術界之外學習這些技能，甚至通過線上培訓，所以學位這一點具有一定的靈活性，但應用科學方法的直接經驗是必須的。

擁有高等學位的另一個優點是同行評審過程和發表論文要求的嚴格性。為了獲得發表，候選人必須以允許其他人審閱和作品。還必須提供證據表明結果是有效的，方法是正確的。這樣做需要深刻理解概率和確定性因素之間的差異以及相關性的價值。

2、機器學習和統計方面的專業知識，重點在於決策優化

將科學方法應用於商業問題，可以讓我們預測未來會發生什麼，從而做出更好的決策。這種預測是人工智慧的產物，更具體地說是機器學習。

對於一個真正的資料科學家來說，機器學習和統計的核心技術技能必須的。

3、R， Python 或 Scala 的專業知識

作為一名資料科學家，並不要求你像專業開發人員一樣精通程式設計，但是創建和運行支援資料科學過程的代碼的能力是必須的，包括能夠統一使用統計和機器學習中流行的資料科學語言。

4、能夠轉換和管理大型資料集

第四種技能也就是大資料能力。使用 Apache Spark 等分散式資料處理框架的能力是關鍵。真正的資料科學家知道如何在資料科學團隊的説明下，從多個來源和多種資料類型中提取資料集。資料本身可能是存在於多個雲中的結構化、半結構化和非結構化資料的組合。

5、有能力將上述技能應用于現實世界的商業問題

第五種技能是一種軟技能。這是與非資料科學家進行交流的能力，以確保資料科學團隊獲得所需的資料資源，並將資料科學應用於正確的業務問題。掌握這一技能還意味著確保資料科學專案的結果，例如關於業務可能發展的預測得到商業人士的充分理解和操作。這需要良好的講故事技巧，尤其是將數學概念映射到常識的能力。

6、能夠評估模型的性能並進行相應地調整

對於一些人來說，第六個技能是第二個技能的一個方面：機器學習的專長。我想要分開描述，因為這一點經常是一個好的資料科學家和壞的資料科學家的區別。缺乏這種技能的資料科學家經常輕易相信已經創建並部署了有效的模型，

而事實上他們的模型與訓練資料並不匹配。

做一個真正的資料科學家

如果你想成為一個真正的資料科學家，而不是一個沒有有抱負的資料科學家或只個資料科學家頭銜，我鼓勵你掌握全部這六個能力。資料科學家與業務分析師或資料分析師從根本上不同，業務分析師或資料分析師經常擔任資料科學團隊的產品所有者，擔任向資料科學家提供專業知識的重要角色。

這並不是說業務分析師、資料分析師和其他人不能轉型為真正的資料科學家，但要明白，這需要時間，堅持，指導，並一次又一次地將自己應用於真實的困難問題。

原文連結：https://venturebeat.com/2017/11/30/what-ibm-looks-for-in-a-data-scientist/

（36氪編譯組出品，未經許可禁止轉載。編輯：郝鵬程）