您的位置:首頁>科技>正文

小白學數據小抄表大放送:Python,R,大數據,機器學習

大資料文摘作品, 轉載要求見文末

作者 | Elaine, 田桂英, Aileen

導讀:前段時間小白學資料專欄出了一期Python小抄表, 後臺反應強烈(點擊查看大資料文摘小白學資料數列文章《小白學資料之常用Python庫“小抄表”》)。

確實, 資料科學越來越熱, 但是對於想要學好它的小白們卻很頭疼一個問題, 需要記住的操作和公式實在是太多了!小抄表是很實用的辦法, 那麼今天我們就為大家送出一份大殺器:28張小抄表合輯!不管你是Python或R的初學者, 還是SQL或機器學習的入門者, 或者準備學習Hadoop, 這裡都有能滿足你的資料。

目錄:

1.資料科學專場: Python小抄表

2.資料科學專場:R的小抄表

3.機器學習小抄表

4.概率小抄表

5.SQL和MySQL小抄表

6.大數據小抄表

小白:上次你給我的Python小抄表真的很好用呢!特別適合我這種初學者。

答:太好了!我們收到不少讀者回饋, 希望推出更多小抄表的資料。 我們這一期小白學資料專欄篩選了28份小抄, 根據覆蓋面、清晰度和內容實用性, 分別涵蓋了機器學習、資料科學、概率、SQL和大資料的領域。 裡面包括了你所需要的工具、流程、各種包和語言。

第一部分

資料科學專場:Python小抄表

小白:我們先來回顧一下之前聊過的Python。 幫我們這樣的小白介紹一下有什麼Python方面的小抄吧?

答:入門的話有兩張表必須強推:

1. Python的資料科學快速入門指南

如果你剛入門Python,那麼這張小抄表非常適合你。 查看這份小抄表, 你將獲得循序漸進學習Python的指導。 它提供了Python學習的必備包和一些有用的學習技巧等資源。

2. Python基礎小抄表

這張由Datacamp製作的小抄表覆蓋了所有Python資料科學需要的基礎知識。 如果你剛開始用Python, 可以留著這張做快速參考。 背下這些小抄的代碼變數、資料類型函數、字串操作、類型轉換、列表和常用操作。 尤其是它列出了重要的Python包, 給出了用於選擇並導入包的小抄代碼。

小白:是的, 就是上面這張表讓我很快掌握了基本的Python語句!我記得還有幾張關於Python常用庫NumPy和Panda的小抄也特別實用?

答:是的。 這些常用庫可以使你輕鬆進行探索性資料分析和各種資料整理。 以下3張小抄表幾乎涵蓋了所有常用的語句啦!

3. Python用於NumPy的資料科學小抄表

NumPy是Python用於科學計算的核心包。 這又是一個由DataCamp製作的小抄表, 你會找到用於創建NumPy陣列的小抄代碼, 用於執行數學運算, 構造子集、分層、索引和陣列操作。 這份小抄最特別的是它給每個函數做了分類, 並用簡單的英語做了解釋說明。

4. 在Python中做探索性資料分析

在Python中進行探索性資料分析的最佳包是NumPy, Pandas和Matplotlib。通過它們,你將學會如何在python中載入檔,轉換變數,分類資料,繪圖,創建樣本資料集,處理缺損資料等等。這張表總結了三個庫中常用的語句,這是用於探索性資料分析的最簡單的小抄本之一。

5. Panda庫小抄表

Pandas是非常重要的Python包之一。這張表專門介紹Pandas。如果你想要瞭解在Python中使用Pandas進行探索性資料分析時所涉及到的每一步操作,那麼這份小抄將是你的首選。表裡的代碼能夠用於讀寫資料,預覽資料框,重命名資料框列,匯總資料等。

小白:我在研究用Python實現視覺化,有什麼小抄可以幫忙麼?

答:這裡有兩份小抄是專為你準備的。

6. Python的資料視覺化

無論是資料科學家還是非專業人士,視覺化對他們來說都是最容易理解的。通過視覺化圖表,資料能夠栩栩如生地得以展示。這份小抄就讓你學會用各種姿勢在Python中進行資料視覺化。一步步地找到方法繪製長條圖、柱狀圖、線圖、散點圖等。

7. Bokeh小抄表

Bokeh是Python的互動式視覺化包,尤其是對於大型資料集極為有用。通過這個由DataCamp製作的小抄,你將學會繪圖,呈現程式和視覺化定制,保存並創建統計圖表的基本操作。

小白:不夠啊~還有別的麼?

答:Scikit-Learn專用小抄和文本清洗教程喜歡麼?

8. Scikit-Learn小抄表

這是為使用Python中scikit-learn模組的每種方法準備的小抄表。它給出了不同的函數,用於資料的預處理、回歸、分類、聚類、降維、模型選擇和指標以及它們對應的說明。這份小抄最特別的是它涵蓋了機器學習的完整階段。

9. Python文本資料清洗步驟

文本清洗是一個繁瑣的過程,理解正確的步驟是取得成功的關鍵。參考這個小抄本在Python中逐步執行文本資料清洗。這樣你就知道什麼時候該刪除停止符、標點、運算式等。這份小抄的特別之處在於每個步驟都給出了代碼和案例。

第二部分

資料科學專場:R的小抄表

小白:好多同學都在問,有全套的R小抄麼?

答:有哦,入門請看10-13號小抄,從功能說明到詳細操作應有盡有,還不熟練的話照著做就對了。

10. R最全的引用卡

這份小抄代碼整理了用於R的所有功能和操作。理解在R中的不同術語,它對於資料創建、資料處理、資料操作、函數建模、篩選等各方面功能都做了說明。

11. 小抄表—11步完成R的資料探索(附代碼)

這份小抄表將手把手地教你學會用R進行探索性資料分析。從學習如何載入檔,到將變數轉換為不同的資料類型,轉置資料集,分類資料框,創建圖表等。

12. R的數據導入

這份小抄將教會你學習如何通過readr, tibble和tidyr包導入資料。你可以通過tibble包使用函數對資料進行讀寫,還可以通過tidyr包重構資料,合併或者分離列。

13. 通過dplyr包進行資料轉化

這份由RStudio提供的小抄是用dplyr包做資料轉換的參考材料。裡面有所有需要進行資料轉換操作的短代碼和運算子,以及匯總操作,分組操作,運算操作,向量化和組合變數的函數案例。

小白:R的視覺化方面的小抄表有麼?

答:當然。R的資料視覺化功能非常強大。14~15號小抄就是專門為視覺化定制的哦。

14. R的資料視覺化

之前我們看了Python的資料視覺化小抄。這個是用於R的圖表繪製小抄,你可以用它畫出資料。通過幾行代碼,就可以創建漂亮的圖表和資料故事。R有很棒的庫,用來繪製視覺化圖表的基本款和升級版,比如橫條圖、長條圖、散點圖、視覺化地圖、組合圖等。

15. 用ggplot2創建資料視覺化圖表

這是使用ggplot2 創建視覺化圖表的小抄表。ggplot2用於圖形語法,它建立在一組表示資料點的視覺標誌上。用小抄代碼和不同技術在R中創建圖形元件和各種圖表。

小白:還有別的麼?比如關於常用包或者資料採擷的?

答:16號就是關於Caret 包的小抄~資料採擷的請看17號;另外我們還有一個雲計算的小抄哦。是不是賺到啦!

16. Caret 包小抄表

Caret包提供了一組函數用於簡化預測模型的建立過程。裡面包括了進行資料分割、預處理、特徵選擇、模型調優和視覺化的函數。

17. R的資料採擷引用卡片

這個小抄表提供了使用R進行文本挖掘、異常值檢測、集群、分類、社交網路分析、大資料、平行計算的功能。它給了你所有需要用R進行資料採擷的函數和運算子。

18. 快速學習R的雲計算指導手冊

雲計算使我們能夠容易的從任何地方訪問我們的檔和資料。通過這份小抄表,你將瞭解如何使用R進行雲計算。遵循這個指導你就可以在AWS上使用R進行程式設計了!

第三部分

機器學習小抄表

問:話說我剛開始學習機器學習演算法。有哪些小抄可以用?

答:Python和R演算法入門請看19號,如果已經進階到scikit-learn的話那就一定要看看20號小抄啦。有使用微軟Azure的繼續下拉,21號很適合你。

19.用於機器學習演算法的Python和R的小抄表

這本小抄表裡有Python和R常用的機器學習演算法。包括線性回歸、邏輯回歸、決策樹、支持向量機(SVM)、樸素貝葉斯、KNN分類演算法、聚類演算法、隨機森林演算法等。

20. Scikit學習演算法小抄

這份演算法圖是scikit-learn官方提供的。很多人都不知道如何選擇特定的機器學習演算法應對不同的資料類型和問題。有了這份圖,你就清楚地瞭解完整的機器學習問題不同演算法的區別。

21. 微軟Azure機器學習演算法小抄

這份微軟官方出品的小抄表提供了一個清晰的資料路徑,能夠説明你找到所需的Azure Machine Learning Studio預測演算法。

第四部分

概率小抄表

小白:想不到資料科學需要那麼多關於概率的知識,有什麼參考可以看麼?

答:碰巧我們也有關於概率的小抄哦。22號是基礎版,23號是針對概率分佈的進階版。請好好享用。

22. 概率基礎小抄

這份賓夕法尼亞大學總結i的小抄是針對概率與統計的全面參考。每個概念都有對應的完備圖解,用精准的方式對基礎概率規則到高級統計概念進行說明。建議你把它放在手邊做備忘參考。

23. 概率分佈的小抄表

這份小抄對於各種常用資料概率分佈做了概覽。每一個分佈都有對應的符號、公式和簡短說明。

第五部分SQL和MySQL小抄

小白:我剛開始用SQL,連怎麼導入資訊都不知道,有什麼可以幫我的麼?

答:24號小抄就是關於SQL基礎操作的啦,你想瞭解的都在這,請拿好。

小白:我們公司用的是MySQL, 有關於它的小抄麼?

答:25號小抄是就是為你準備的,常用的指令都可以在那找到哦。

24. SQL 小抄表

這份小抄表是關於SQL基礎操作的教程,包括如何導入、更新、刪除、歸類、排序等。如果你剛開始用SQL,這份小抄務很實用。

25. MySQL和SQL小抄表

在這份小抄裡,你會找到MySQL和SQL的常用指令,比如MySQL需要的計算函數,字串函數;SQL需要的資料修改和查詢指令等。

第六部分

大資料小抄表

問:既然說了這麼多語言了,我也想知道關於使用大資料資料處理語言Hadoop的一切,包括Apache Spark或者Hive這種擴展資訊,有沒有辦法幫我?

答:必須有!26號小抄就是Hadoop的全面介紹,另外關於如何使用Apache Spark和Hive指令的,詳見27號和28號小抄哦。

26. Hadoop小抄表

Hadoop是一個巨型生態系統,裡面包含了大量的操作內容。為了瞭解各種操作用途以及工作方式,小抄內容按照功能進行了分類,比如分散式系統、資料處理、資料的導入匯出以及管理等。

27. Apache Spark 的小抄表

28. Hive的功能小抄

小白:哇噻!不知不覺已經28張小抄表了,絕對是良心大放送!

答:我們希望小白還有讀者們能喜歡這篇文章啦。如果我們漏了一些小抄表或者您願意分享自己製作的小抄表,請務必發到評論區,這樣其他讀者和我們都能看到。歡迎在評論區提出任何建議和回饋,告訴我們你 希望在小白學資料欄目看到的內容~

素材: https://www.analyticsvidhya.com/blog/2017/02/top-28-cheat-sheets-for-machine-learning-data-science-probability-sql-big-data/

4. 在Python中做探索性資料分析

在Python中進行探索性資料分析的最佳包是NumPy, Pandas和Matplotlib。通過它們,你將學會如何在python中載入檔,轉換變數,分類資料,繪圖,創建樣本資料集,處理缺損資料等等。這張表總結了三個庫中常用的語句,這是用於探索性資料分析的最簡單的小抄本之一。

5. Panda庫小抄表

Pandas是非常重要的Python包之一。這張表專門介紹Pandas。如果你想要瞭解在Python中使用Pandas進行探索性資料分析時所涉及到的每一步操作,那麼這份小抄將是你的首選。表裡的代碼能夠用於讀寫資料,預覽資料框,重命名資料框列,匯總資料等。

小白:我在研究用Python實現視覺化,有什麼小抄可以幫忙麼?

答:這裡有兩份小抄是專為你準備的。

6. Python的資料視覺化

無論是資料科學家還是非專業人士,視覺化對他們來說都是最容易理解的。通過視覺化圖表,資料能夠栩栩如生地得以展示。這份小抄就讓你學會用各種姿勢在Python中進行資料視覺化。一步步地找到方法繪製長條圖、柱狀圖、線圖、散點圖等。

7. Bokeh小抄表

Bokeh是Python的互動式視覺化包,尤其是對於大型資料集極為有用。通過這個由DataCamp製作的小抄,你將學會繪圖,呈現程式和視覺化定制,保存並創建統計圖表的基本操作。

小白:不夠啊~還有別的麼?

答:Scikit-Learn專用小抄和文本清洗教程喜歡麼?

8. Scikit-Learn小抄表

這是為使用Python中scikit-learn模組的每種方法準備的小抄表。它給出了不同的函數,用於資料的預處理、回歸、分類、聚類、降維、模型選擇和指標以及它們對應的說明。這份小抄最特別的是它涵蓋了機器學習的完整階段。

9. Python文本資料清洗步驟

文本清洗是一個繁瑣的過程,理解正確的步驟是取得成功的關鍵。參考這個小抄本在Python中逐步執行文本資料清洗。這樣你就知道什麼時候該刪除停止符、標點、運算式等。這份小抄的特別之處在於每個步驟都給出了代碼和案例。

第二部分

資料科學專場:R的小抄表

小白:好多同學都在問,有全套的R小抄麼?

答:有哦,入門請看10-13號小抄,從功能說明到詳細操作應有盡有,還不熟練的話照著做就對了。

10. R最全的引用卡

這份小抄代碼整理了用於R的所有功能和操作。理解在R中的不同術語,它對於資料創建、資料處理、資料操作、函數建模、篩選等各方面功能都做了說明。

11. 小抄表—11步完成R的資料探索(附代碼)

這份小抄表將手把手地教你學會用R進行探索性資料分析。從學習如何載入檔,到將變數轉換為不同的資料類型,轉置資料集,分類資料框,創建圖表等。

12. R的數據導入

這份小抄將教會你學習如何通過readr, tibble和tidyr包導入資料。你可以通過tibble包使用函數對資料進行讀寫,還可以通過tidyr包重構資料,合併或者分離列。

13. 通過dplyr包進行資料轉化

這份由RStudio提供的小抄是用dplyr包做資料轉換的參考材料。裡面有所有需要進行資料轉換操作的短代碼和運算子,以及匯總操作,分組操作,運算操作,向量化和組合變數的函數案例。

小白:R的視覺化方面的小抄表有麼?

答:當然。R的資料視覺化功能非常強大。14~15號小抄就是專門為視覺化定制的哦。

14. R的資料視覺化

之前我們看了Python的資料視覺化小抄。這個是用於R的圖表繪製小抄,你可以用它畫出資料。通過幾行代碼,就可以創建漂亮的圖表和資料故事。R有很棒的庫,用來繪製視覺化圖表的基本款和升級版,比如橫條圖、長條圖、散點圖、視覺化地圖、組合圖等。

15. 用ggplot2創建資料視覺化圖表

這是使用ggplot2 創建視覺化圖表的小抄表。ggplot2用於圖形語法,它建立在一組表示資料點的視覺標誌上。用小抄代碼和不同技術在R中創建圖形元件和各種圖表。

小白:還有別的麼?比如關於常用包或者資料採擷的?

答:16號就是關於Caret 包的小抄~資料採擷的請看17號;另外我們還有一個雲計算的小抄哦。是不是賺到啦!

16. Caret 包小抄表

Caret包提供了一組函數用於簡化預測模型的建立過程。裡面包括了進行資料分割、預處理、特徵選擇、模型調優和視覺化的函數。

17. R的資料採擷引用卡片

這個小抄表提供了使用R進行文本挖掘、異常值檢測、集群、分類、社交網路分析、大資料、平行計算的功能。它給了你所有需要用R進行資料採擷的函數和運算子。

18. 快速學習R的雲計算指導手冊

雲計算使我們能夠容易的從任何地方訪問我們的檔和資料。通過這份小抄表,你將瞭解如何使用R進行雲計算。遵循這個指導你就可以在AWS上使用R進行程式設計了!

第三部分

機器學習小抄表

問:話說我剛開始學習機器學習演算法。有哪些小抄可以用?

答:Python和R演算法入門請看19號,如果已經進階到scikit-learn的話那就一定要看看20號小抄啦。有使用微軟Azure的繼續下拉,21號很適合你。

19.用於機器學習演算法的Python和R的小抄表

這本小抄表裡有Python和R常用的機器學習演算法。包括線性回歸、邏輯回歸、決策樹、支持向量機(SVM)、樸素貝葉斯、KNN分類演算法、聚類演算法、隨機森林演算法等。

20. Scikit學習演算法小抄

這份演算法圖是scikit-learn官方提供的。很多人都不知道如何選擇特定的機器學習演算法應對不同的資料類型和問題。有了這份圖,你就清楚地瞭解完整的機器學習問題不同演算法的區別。

21. 微軟Azure機器學習演算法小抄

這份微軟官方出品的小抄表提供了一個清晰的資料路徑,能夠説明你找到所需的Azure Machine Learning Studio預測演算法。

第四部分

概率小抄表

小白:想不到資料科學需要那麼多關於概率的知識,有什麼參考可以看麼?

答:碰巧我們也有關於概率的小抄哦。22號是基礎版,23號是針對概率分佈的進階版。請好好享用。

22. 概率基礎小抄

這份賓夕法尼亞大學總結i的小抄是針對概率與統計的全面參考。每個概念都有對應的完備圖解,用精准的方式對基礎概率規則到高級統計概念進行說明。建議你把它放在手邊做備忘參考。

23. 概率分佈的小抄表

這份小抄對於各種常用資料概率分佈做了概覽。每一個分佈都有對應的符號、公式和簡短說明。

第五部分SQL和MySQL小抄

小白:我剛開始用SQL,連怎麼導入資訊都不知道,有什麼可以幫我的麼?

答:24號小抄就是關於SQL基礎操作的啦,你想瞭解的都在這,請拿好。

小白:我們公司用的是MySQL, 有關於它的小抄麼?

答:25號小抄是就是為你準備的,常用的指令都可以在那找到哦。

24. SQL 小抄表

這份小抄表是關於SQL基礎操作的教程,包括如何導入、更新、刪除、歸類、排序等。如果你剛開始用SQL,這份小抄務很實用。

25. MySQL和SQL小抄表

在這份小抄裡,你會找到MySQL和SQL的常用指令,比如MySQL需要的計算函數,字串函數;SQL需要的資料修改和查詢指令等。

第六部分

大資料小抄表

問:既然說了這麼多語言了,我也想知道關於使用大資料資料處理語言Hadoop的一切,包括Apache Spark或者Hive這種擴展資訊,有沒有辦法幫我?

答:必須有!26號小抄就是Hadoop的全面介紹,另外關於如何使用Apache Spark和Hive指令的,詳見27號和28號小抄哦。

26. Hadoop小抄表

Hadoop是一個巨型生態系統,裡面包含了大量的操作內容。為了瞭解各種操作用途以及工作方式,小抄內容按照功能進行了分類,比如分散式系統、資料處理、資料的導入匯出以及管理等。

27. Apache Spark 的小抄表

28. Hive的功能小抄

小白:哇噻!不知不覺已經28張小抄表了,絕對是良心大放送!

答:我們希望小白還有讀者們能喜歡這篇文章啦。如果我們漏了一些小抄表或者您願意分享自己製作的小抄表,請務必發到評論區,這樣其他讀者和我們都能看到。歡迎在評論區提出任何建議和回饋,告訴我們你 希望在小白學資料欄目看到的內容~

素材: https://www.analyticsvidhya.com/blog/2017/02/top-28-cheat-sheets-for-machine-learning-data-science-probability-sql-big-data/

Next Article
喜欢就按个赞吧!!!
点击关闭提示