三張圖讀懂機器學習：基本概念、五大流派與九種常見演算法

選自PwC

作者：Alan Morrison、Anand Rao

參與：吳攀、晏奇

機器學習正在進步，我們似乎正在不斷接近我們心中的人工智慧目標。語音辨識、圖像檢測、機器翻譯、風格遷移等技術已經在我們的實際生活中開始得到了應用，但機器學習的發展仍還在繼續，甚至被認為有可能徹底改變人類文明的發展方向乃至人類自身。但你瞭解現在正在發生的這場變革嗎？四大會計師事務所之一的普華永道（PwC）近日發佈了多份解讀機器學習基礎的圖表，其中介紹了機器學習的基本概念、原理、歷史、未來趨勢和一些常見的演算法。為便於讀者閱讀，

機器之心對這些圖表進行了編譯和拆分，分三大部分對這些內容進行了呈現，其中也加入了一些擴展連結，希望能説明你進一步擴展閱讀。

一、機器學習概覽

1. 什麼是機器學習？

機器通過分析大量資料來進行學習。比如說，不需要通過程式設計來識別貓或人臉，

它們可以通過使用圖片來進行訓練，從而歸納和識別特定的目標。

2. 機器學習和人工智慧的關係

機器學習是一種重在尋找資料中的模式並使用這些模式來做出預測的研究和演算法的門類。機器學習是人工智慧領域的一部分，並且和知識發現與資料採擷有所交集。更多解讀可參閱《一文讀懂機器學習、資料科學、人工智慧、深度學習和統計學之間的區別》。

3. 機器學習的工作方式

①選擇資料：將你的數據分成三組：訓練資料、驗證資料和測試資料

②模型資料：使用訓練資料來構建使用相關特徵的模型

③驗證模型：使用你的驗證資料接入你的模型

④測試模型：使用你的測試資料檢查被驗證的模型的表現

⑤使用模型：使用完全訓練好的模型在新資料上做預測

⑥調優模型：使用更多資料、不同的特徵或調整過的參數來提升演算法的性能表現

4. 機器學習所處的位置

①傳統程式設計：軟體工程師編寫程式來解決問題。首先存在一些資料→為了解決一個問題，軟體工程師編寫一個流程來告訴機器應該怎樣做→電腦遵照這一流程執行，然後得出結果

②統計學：分析師比較變數之間的關係

③機器學習：資料科學家使用訓練資料集來教電腦應該怎麼做，然後系統執行該任務。首先存在大資料→機器會學習使用訓練資料集來進行分類，

調節特定的演算法來實現目標分類→該電腦可學習識別資料中的關係、趨勢和模式

④智慧應用：智慧應用使用人工智慧所得到的結果，如圖是一個精准農業的應用案例示意，該應用基於無人機所收集到的資料

5. 機器學習的實際應用

機器學習有很多應用場景，這裡給出了一些示例，你會怎麼使用它？

快速三維地圖測繪和建模：要建造一架鐵路橋，PwC 的資料科學家和領域專家將機器學習應用到了無人機收集到的資料上。這種組合實現了工作成功中的精准監控和快速回饋。

增強分析以降低風險：為了檢測內部交易，PwC 將機器學習和其它分析技術結合了起來，從而開發了更為全面的用戶概況，並且獲得了對複雜可疑行為的更深度瞭解。

預測表現最佳的目標：PwC 使用機器學習和其它分析方法來評估 Melbourne Cup 賽場上不同賽馬的潛力。

二、機器學習的演化

幾十年來，人工智慧研究者的各個「部落」一直以來都在彼此爭奪主導權，參閱機器之心文章《華盛頓大學教授 Pedro Domingos：機器學習領域五大流派（附演講 ppt）》。現在是這些部落聯合起來的時候了嗎？他們也可能不得不這樣做，因為合作和演算法融合是實現真正通用人工智慧（AGI）的唯一方式。這裡給出了機器學習方法的演化之路以及未來的可能模樣。擴展閱讀《深度 | 深度學習與神經網路全域概覽：核心技術的發展歷程》。

1. 五大流派

①符號主義：使用符號、規則和邏輯來表徵知識和進行邏輯推理，最喜歡的演算法是：規則和決策樹

②貝葉斯派：獲取發生的可能性來進行概率推理，最喜歡的演算法是：樸素貝葉斯或瑪律可夫

③聯結主義：使用概率矩陣和加權神經元來動態地識別和歸納模式，最喜歡的演算法是：神經網路

④進化主義：生成變化，然後為特定目標獲取其中最優的，最喜歡的演算法是：遺傳演算法

⑤Analogizer：根據約束條件來優化函數（盡可能走到更高，但同時不要離開道路），最喜歡的演算法是：支持向量機

2. 演化的階段

1980 年代

主導流派：符號主義

架構：伺服器或大型機

主導理論：知識工程

基本決策邏輯：決策支援系統，實用性有限

1990 年代到 2000 年

主導流派：貝葉斯

架構：小型伺服器集群

主導理論：概率論

分類：可擴展的比較或對比，對許多工都足夠好了

2010 年代早期到中期

主導流派：聯結主義

架構：大型伺服器農場

主導理論：神經科學和概率

識別：更加精准的圖像和聲音識別、翻譯、情緒分析等

3. 這些流派有望合作，並將各自的方法融合到一起

2010 年代末期

主導流派：聯結主義+符號主義

架構：許多雲

主導理論：記憶神經網路、大規模集成、基於知識的推理

簡單的問答：範圍狹窄的、領域特定的知識共用

2020 年代+

主導流派：聯結主義+符號主義+貝葉斯+……

架構：雲計算和霧計算

主導理論：感知的時候有網路，推理和工作的時候有規則

簡單感知、推理和行動：有限制的自動化或人機交互

2040 年代+

主導流派：演算法融合

架構：無處不在的伺服器

主導理論：最佳組合的元學習

感知和響應：基於通過多種學習方式獲得的知識或經驗採取行動或做出回答

三、機器學習的演算法

你應該使用哪種機器學習演算法？這在很大程度上依賴於可用資料的性質和數量以及每一個特定用例中你的訓練目標。不要使用最複雜的演算法，除非其結果值得付出昂貴的開銷和資源。這裡給出了一些最常見的演算法，按使用簡單程度排序。更多內容可參閱機器之心的文章《機器學習演算法集錦：從貝葉斯到深度學習及各自優缺點》和《經驗之談：如何為你的機器學習問題選擇合適的演算法？》

1. 決策樹（Decision Tree）：在進行逐步應答過程中，典型的決策樹分析會使用分層變數或決策節點，例如，可將一個給定用戶分類成信用可靠或不可靠。

優點：擅長對人、地點、事物的一系列不同特徵、品質、特性進行評估

場景舉例：基於規則的信用評估、賽馬結果預測

擴展閱讀：《教程 | 從頭開始：用Python實現決策樹演算法》、《想瞭解概率圖模型？你要先理解圖論的基本定義與形式》

2. 支持向量機（Support Vector Machine）：基於超平面（hyperplane），支援向量機可以對資料群進行分類。

優點：支援向量機擅長在變數 X 與其它變數之間進行二元分類操作，無論其關係是否是線性的

場景舉例：新聞分類、手寫辨識。

擴展閱讀：《乾貨 | 詳解支持向量機（附學習資源）》

3. 回歸（Regression）：回歸可以勾畫出因變數與一個或多個因變數之間的狀態關係。在這個例子中，將垃圾郵件和非垃圾郵件進行了區分。

優點：回歸可用於識別變數之間的連續關係，即便這個關係不是非常明顯

場景舉例：路面交通流量分析、郵件過濾

4. 樸素貝葉斯分類（Naive Bayes Classification）：樸素貝葉斯分類器用於計算可能條件的分支概率。每個獨立的特徵都是「樸素」或條件獨立的，因此它們不會影響別的物件。例如，在一個裝有共 5 個黃色和紅色小球的罐子裡，連續拿到兩個黃色小球的概率是多少？從圖中最上方分支可見，前後抓取兩個黃色小球的概率為 1/10。樸素貝葉斯分類器可以計算多個特徵的聯合條件概率。

優點：對於在小資料集上有顯著特徵的相關物件，樸素貝葉斯方法可對其進行快速分類

場景舉例：情感分析、消費者分類

5. 隱瑪律可夫模型（Hidden Markov model）：顯瑪律可夫過程是完全確定性的——一個給定的狀態經常會伴隨另一個狀態。交通信號燈就是一個例子。相反，隱瑪律可夫模型通過分析可見資料來計算隱藏狀態的發生。隨後，借助隱藏狀態分析，隱瑪律可夫模型可以估計可能的未來觀察模式。在本例中，高或低氣壓的概率（這是隱藏狀態）可用於預測晴天、雨天、多雲天的概率。

優點：容許資料的變化性，適用於識別（recognition）和預測操作

場景舉例：面部表情分析、氣象預測

6. 隨機森林（Random forest）：隨機森林演算法通過使用多個帶有隨機選取的資料子集的樹（tree）改善了決策樹的精確性。本例在基因表達層面上考察了大量與乳腺癌復發相關的基因，並計算出復發風險。

優點：隨機森林方法被證明對大規模資料集和存在大量且有時不相關特徵的項（item）來說很有用

場景舉例：用戶流失分析、風險評估

擴展閱讀：《教程 | 從頭開始：用 Python 實現隨機森林演算法》

7. 迴圈神經網路（Recurrent neural network）：在任意神經網路中，每個神經元都通過 1 個或多個隱藏層來將很多輸入轉換成單個輸出。迴圈神經網路（RNN）會將值進一步逐層傳遞，讓逐層學習成為可能。換句話說，RNN 存在某種形式的記憶，允許先前的輸出去影響後面的輸入。

優點：迴圈神經網路在存在大量有序資訊時具有預測能力

場景舉例：圖像分類與字幕添加、政治情感分析

8. 長短期記憶（Long short-term memory，LSTM）及閘控迴圈單元神經網路（gated recurrent unit nerual network）：早期的 RNN 形式是會存在損耗的。儘管這些早期迴圈神經網路只允許留存少量的早期資訊，新近的長短期記憶（LSTM）及閘控迴圈單元（GRU）神經網路都有長期與短期的記憶。換句話說，這些新近的 RNN 擁有更好的控制記憶的能力，允許保留早先的值或是當有必要處理很多系列步驟時重置這些值，這避免了「梯度衰減」或逐層傳遞的值的最終 degradation。LSTM 與 GRU 網路使得我們可以使用被稱為「門（gate）」的記憶模組或結構來控制記憶，這種門可以在合適的時候傳遞或重置值。

優點：長短期記憶和門控迴圈單元神經網路具備與其它迴圈神經網路一樣的優點，但因為它們有更好的記憶能力，所以更常被使用

場景舉例：自然語言處理、翻譯

擴展閱讀：《深度 | LSTM 和遞迴網路基礎教程》和《乾貨 | 圖解 LSTM 神經網路架構及其 11 種變體（附論文）》

9. 卷積神經網路（convolutional neural network）：卷積是指來自後續層的權重的融合，可用於標記輸出層。

優點：當存在非常大型的資料集、大量特徵和複雜的分類任務時，卷積神經網路是非常有用的

場景舉例：圖像識別、文本轉語音、藥物發現

擴展閱讀：《專欄 | 卷積神經網路簡介》、《從入門到精通：卷積神經網路初學者指南》和《解析深度卷積神經網路的 14 種設計模式》