機器學習的本質就是數理統計？答案可能沒這麼簡單

可能許多剛剛接觸 AI 的新人們都產生過類似這樣的疑問：機器學習和數理統計，究竟有什麼本質區別？不都是玩資料的麼。

如果從傳統意義上的資料分析師的觀點來說，這個問題的答案很簡單，無非是下面這兩點：

● 機器學習本質上是一種演算法，這種演算法由資料分析習得，而且不依賴於規則導向的程式設計；

● 統計建模則是以資料為基礎，利用數學方程式來探究變數變化規律的一套規範化流程。

總結來說，機器學習的關鍵字是預測、監督學習和非監督學習等。而數理統計是關於抽樣、統計和假設檢驗的科學。

這個答案看起來似乎無懈可擊，但其實機器學習和數理統計之間的關係遠沒有這麼簡單。

相同點

按照數理統計學的大師級人物 Larry Wasserman 的說法，實際上“這兩門學科（機器學習和數理統計）關心的是同一件事，即我們能從資料中學到什麼？”

根據他在個人博客中的總結，以下這些在數理統計和機器學習中的常見術語實際上具有相同的含義。

除此之外，另一位學術界的專家，斯坦福大學著名統計學和機器學習大師 Robert Tibshirani 也一直將機器學習稱為“美化過的統計學”（glorified statistics）。

實際上，發展到今天，機器學習和統計學技術都已經是模式識別、知識發現和資料採擷等領域的常用技術。雖然根據 SAS 於 2014 年發佈的統計結果（如下圖），機器學習和數理統計之間的關係是相互獨立的，

但實際上在近兩年他們之間的界限已經已經越來越模糊，甚至有相互融合的趨勢。

這樣看來，機器學習和數理統計的確具有相同的目標：從數據中學習。他們的核心都是探討如何從資料中提取人們需要的資訊或規律。但是，這兩門學科在研究方法上卻有本質的區別。

不同點

首先，機器學習是一個比較新的領域，是電腦科學與人工智慧的一個分支，它更多地關心如何構建一個系統去分析資料，而不是針對特定的程式化指令。

而統計建模則完全是數學的分支。雖然現在廉價的計算能力和海量的可用資料的支援下，資料科學家們已經可以通過資料分析來訓練電腦的學習能力，

即機器學習。但統計建模相對機器學習而言卻擁有悠久得多的歷史，實際上它早在電腦被發明之前就存在了。

另一方面，機器學習更多地強調優化和性能，而統計學則更注重推導。

關於這一點，我們或許可以從下面這兩段分別來自統計學家和機器學習研究人員針對同一資料模型的描述上得到更深的體會。

● 機器學習研究人員：在給定 a、b 和 c 的前提下，該模型準確預測出結果 Y 的概率達到了 85%。

● 統計學家：在給定 a、b 和 c 的前提下，該模型準確預測出結果 Y 的概率達到了 85%；而且我有九成的把握你也會得到與此相同的結論。

第三，機器學習並不需要對有關變數之間的潛在關係提出先驗假設。研究人員只需要將所有的可用資料導入模型，

等待演算法的分析並輸出其中的潛在規律，然後將這一規律應用於新資料進行預測就可以了。對於研究人員來說，機器學習就像一個黑盒子，你只需要會用，但並不清楚其中的具體實現。機器學習通常應用于高維度的資料集，你的可用資料越多，預測通常就越準確。

相比之下，統計學則必須瞭解資料的收集方式，估計量（包括p值和無偏估計）的統計特徵，被研究人群的潛在分佈規律，以及多次試驗的期望參數的類型。研究人員需要非常清楚自己在做什麼，並提出具有預測能力的參數。而且統計建模通常用於較低維度的資料集。

結論

總結來說，我們可以認為機器學習和統計建模是預測建模領域的兩個不同分支。

這兩者之間的差距在過去的 10 年中正在不斷縮小，而且它們之間存在許多相互學習和借鑒的地方。未來，它們之間的聯繫將會更加緊密。

對開發者而言，充分瞭解機器學習和統計建模之間的差異和聯繫，將有助於他們擴大自己的知識面，甚至將專業領域之外的分析方法引入研發流程之中。這一點也正是資料科學（data science）本身的核心理念，即彌合機器學習和統計建模之間的區別，讓二者逐漸趨於歸一化。最後需要肯定的是，這兩門以資料驅動的學科之間的協作和交流越頻繁，我們的生活就會變得越好。

一張圖看懂資料科學家、資料工程師和軟體工程師之間的區別

資料科學入門難？老司機為你盤點 24 門精品課程