文|陸勤
你是否想要用R做機器學習, 但又苦惱於怎麼開始做?
在這篇文章裡你將會用R完成你的第一個機器學習項目。
在這個逐步教程裡, 你需要做:
2 導入一個資料集並且用統計分析和資料視覺化來理解它的結構。
3 創建5個機器學習模型, 選擇最好和建立精度是可靠的置信。
如果你是一個機器學習新手, 而且還在找一個你最終會選擇的方案來學習機器學習的話, 這個教程就是針對你設計的。
讓我們現在開始吧。
怎樣用R開始你的機器學習?
學習機器學習最好的方法就是設計並實現一系列小項目。
初學R的時候你可能回覺得這有點可怕
R在編寫腳本時所提供的語法結構是比較奇怪的。 這裡有幾百個R包和幾千個函數讓你選擇, 給每個任務提供了多種解決方法, 所以這會讓你感到有點吃不消。
所以說, 在R上開始機器學習最好的方法就是要完成一個項目。
1 這需要你安裝並開始學習使用R(至少會一點點)。
2 它能給你更開闊的視角來理解如何一步步進行機器學習。
3 它會給你自信, 來源於你完成一個小項目的成就感。
入門的人需要完成一個端對端的項目
光看書或課程會讓你覺得很吃不消, 它們給你提供的是一系列的解決方法和程式碼片段, 但是, 你永遠都不知道怎樣把他們綜合起來使用。
當你要把機器學習運用到你的資料集的時候, 其實你就是在做一個項目。
一個機器學習專案可能不是線性的, 但是, 有些有用的方法你可以按順序的遵循:
1 定義問題
2 準備好資料
3 評估演算法
4 改良結果
5 展示最終結果
如果你想要瞭解更多關於機器學習的步驟, 你可以查閱這一清單,
與一個新的平臺或工具達成協議的最好方法就是完成端對端的機器學習項目, 並按照之前給的步驟執行。 也就是說, 從載入資料開始, 然後匯總你的資料, 接下來評估你的演算法, 同時改良你的結果, 並在最後作適當的展示。
如果你是這麼做的話, 你就會在你處理完資料以後, 有了一個範本來對新的資料集進行研究。 你甚至還可以通過資料展示和改良相關的結果來填補你先前做任務的時候留下來的空缺。 一旦你這麼做了, 你就會有信心了。
機器學習的Hello World
利用新的工具進行小項目的最好方法就是首先從iris的分類資料集開始。
這是一個好的項目, 因為它簡單明瞭。
1 裡面的屬性是數位, 所以, 你會覺得導入和處理資料會非常上手。
2 這是一個分類問題, 或許能允許你使用簡單的監督學習演算法進行練習。
3 這是一個多級分類問題(多含義), 而它需要一些特別的方法來處理。
4 它只有4個屬性和150行資料, 說明這對於記憶體來說很小, 而且處理起來很快(一張A4紙大小那樣)。 5 所有的數位屬性都在同一個單元, 它們的規模也相同, 它不需要轉化成特別的形式或者使用特殊的定位。
在R中讓我們開始您的Helloworld機器學習項目。
R中做機器學習:逐步學習的教程(在這裡開始)
在這一部分的內容中, 我們要完成一個小的端到端機器學習項目。 這裡, 我們流覽一下我們接下來要幹什麼:
1 安裝R平臺
2 載入資料
3 匯總資料集
4 對資料集進行視覺化操作
5 評估一些演算法
6 做一些相關預測
慢慢來, 認真的落實好每一步。
你可以嘗試自己寫代碼, 或者從別的地方複製相關的代碼來提高工作效率。
如果你的系統還沒有R平臺, 那就現在安裝一個吧。
更新:這個教程是根據R 3.2.3版寫的, 所以, 如果你的版本比較舊, 那麼, 你就需要更新一下了。
我不想在這裡講太多的細節, 其他文章已經講的很清楚了。 這已經講的直接明瞭, 尤其你是一名開發人員的時候。
這裡, 你要遵循幾個步驟:
2 安裝R
3 開始使用R
你可以從 The R Project webpage
1.2安裝R
安裝R很容易的, 而且我也相信你可以解決。 這裡沒有其它特別的要求。 如果你在安裝R的時候遇到什麼問題需要求助的話, 你可以看一下 R Installation and Administration。
1.3開始使用R
你可以在作業系統上看到的選擇任意功能表系統使用R。
對於我而已,我更喜歡命令列。
打開你的命令列,改變(或者創建)你的專案目錄,並且在命令列輸入以下代碼: R
您應該在一個新的視窗或者您的終端上看到一個像如下的螢幕截圖:
1.4安裝R包
安裝我們今天要使用的R包。這些包是協力廠商附加元件或者可以在R使用的庫。
install.packages(“caret”)
更新:我們也許需要其它包,但是caret會問到我們是否要安裝它。如果你對於這些包有什麼疑問的話,你可以先安裝caret包,然後你可以輸入下面的代碼來看一下你需要什麼包:
install.packages(“caret”,dependencies=c(“Depends”, “Suggests”)) 現在,我們載入一下caret包,然後開始在我們的教程裡使用這個包。
library(caret)
caret包給上百個機器學習演算法提供了相應介面,並給資料視覺化、資料採樣、模型調整以模型比較這些功能提供了便利的方法。我們必須要在R裡有進行機器學習的工具。
如果你想要瞭解更多關於caret這個R包的內容,查閱一下caret package homepage這篇文章。
更多行業資訊,更新鮮的技術動態,盡在慧都學院。
1.3開始使用R
你可以在作業系統上看到的選擇任意功能表系統使用R。
對於我而已,我更喜歡命令列。
打開你的命令列,改變(或者創建)你的專案目錄,並且在命令列輸入以下代碼: R
您應該在一個新的視窗或者您的終端上看到一個像如下的螢幕截圖:
1.4安裝R包
安裝我們今天要使用的R包。這些包是協力廠商附加元件或者可以在R使用的庫。
install.packages(“caret”)
更新:我們也許需要其它包,但是caret會問到我們是否要安裝它。如果你對於這些包有什麼疑問的話,你可以先安裝caret包,然後你可以輸入下面的代碼來看一下你需要什麼包:
install.packages(“caret”,dependencies=c(“Depends”, “Suggests”)) 現在,我們載入一下caret包,然後開始在我們的教程裡使用這個包。
library(caret)
caret包給上百個機器學習演算法提供了相應介面,並給資料視覺化、資料採樣、模型調整以模型比較這些功能提供了便利的方法。我們必須要在R裡有進行機器學習的工具。
如果你想要瞭解更多關於caret這個R包的內容,查閱一下caret package homepage這篇文章。
更多行業資訊,更新鮮的技術動態,盡在慧都學院。