近期, 資料採擷資訊網站KDnuggets開展了一項調查, 問題是“2016年和2017年, 在資料分析、資料科學和機器學習工作中, 你使用R、Python、兩者都用, 還是其他工具?”
# 高能預警:下文含多張辣眼睛的配圖, 請做好防護……
對954名受訪者的調查顯示, Python尚未完全“吞噬”R, 但2017年Python生態系統已經超越了R, 成為資料分析、資料科學和機器學習領域領先的平臺, 同時也在迅速吸引其他平臺的用戶。
2016年, Python排名第二(“主要使用Python”占比為34%, “主要使用R”占比為42%), 而在2017年的結果中, Python和R的占比分別為41%和36%。
在KDnuggets的讀者中, 同時使用R和Python的比例也從2016年的8.5%上升至2017年的12%, 而使用其他工具的比例從16%下降至11%。
△2016年和2017年, 在分析、資料科學、機器學習中, 使用Python、R、兩者都用、其他工具的份額
隨後, 我們可以看看用戶在不同平臺之間的轉移。
△從2016到2017年, 用戶在Python、R、兩者都用、其他工具間的轉移情況
上圖看起來有些複雜, 但我們可以專注於兩個關鍵方面。 Python在這兩個方面都保持領先。
忠誠度:Python用戶的忠誠度更高。 2016年, Python用戶中的91%仍然繼續使用Python。 而在R的用戶中, 這一比例只有74%, 在其他平臺中只有60%。
轉移比例:大約10%的R用戶轉移至Python, 但只有5%的Python用戶轉移至R。 在2016年同時使用兩種工具的用戶中, 只有49%仍然同時使用兩者, 而38%轉而主要使用Python, 只有11%轉而主要使用R。
接下來, 我們來看看最近幾年的變化趨勢。
△2014年到2017年, Python、R和其他平臺份額的變化
可以看到, R的份額正在緩慢下降(從2015年的約50%下降至2017年的約36%),
在2015年關於R和Python的調查中, 我們沒有提供“同時使用Python和R”的選項。 因此為了比較過去4年的資料, 我們將2016年和2017年Python和R的份額按照如下公式來計算:
Python總份額 = (Python份額) + 50%(同時使用Python和R的份額)
R總份額 = (R份額) + 50%(同時使用Python和R的份額)
最後, 讓我們看看各地區的趨勢和模式。 參與調查的用戶來自各地區比例如下:
美國/加拿大:40%
歐洲:35%
亞洲:12.5%
拉美:6.2%
非洲/中東:3.6%
澳大利亞/紐西蘭:3.1%
為了簡化表格, 對於“同時使用R和Python”的份額, 我們以同上的方式進行處理, 並將亞洲、澳大利亞/紐西蘭、拉美, 以及中東/非洲合併為“其他”地區。
△2016、2017年,Python、R、其他工具在各地區的使用情況
在這3大地區中,我們觀察到同樣的模式:
Python的份額上升8%到10%。
R的份額下降2%到4%。
其他平臺的份額下降5%到7%。
Python用戶的未來看起來很光明,但我們認為,考慮到當前使用者數規模龐大,R和其他平臺仍將在可預見的未來保持一定的份額。
劃重點劃重點:Python超過R,成為資料科學和機器學習的最常用語言。
人工智慧時代已經悄然而至,你還不加入我們嗎?
△2016、2017年,Python、R、其他工具在各地區的使用情況
在這3大地區中,我們觀察到同樣的模式:
Python的份額上升8%到10%。
R的份額下降2%到4%。
其他平臺的份額下降5%到7%。
Python用戶的未來看起來很光明,但我們認為,考慮到當前使用者數規模龐大,R和其他平臺仍將在可預見的未來保持一定的份額。
劃重點劃重點:Python超過R,成為資料科學和機器學習的最常用語言。
人工智慧時代已經悄然而至,你還不加入我們嗎?