數學和機器學習 - oba

數學之于電腦的應用，就像電腦之于商業的應用，只要應用得恰當都能實現飛躍性的進步。

數學之美就在於能把生活中非常複雜的問題，抽象成一個個簡單的公式進行簡化、解決。現在很火的語音辨識、圖像識別、自動駕駛、卷積神經網路、深度學習等等，其實就是機器學習，用的原理很簡單，就是樸素貝葉斯模型、隱式瑪律科夫鏈、決策樹等等一系列數學模型，而具體的應用就是把數學模型中的參數替換成相應的資料即可，比如訓練自動駕駛模型用的參數就是車距、速度、路面高低、濕度、風速....讀者也不要覺得數學公式的名字很深奧，

任何一個大學生通過學習都能輕鬆地推導出來，所以沒必要覺得很複雜。

公式並不複雜，最關鍵的是如何應用，如何確定模型和參數，當面對具體問題時可不可以抽象成數學問題，應該用哪方面的數學知識解決，應該用哪個模型，訓練的參數有哪些，有沒有訓練模型的資料，有沒有足夠的計算能力這都是十分關鍵的問題。就拿GoogleBrain來說，其實就是把神經網路模型拆分成N個關聯的部分並分佈到大型的伺服器集群上進行平行計算(就像MapReduce),研究人員可以把自己的數學模型運行在GooogleBrain上，只要參數定了Google可以收集提供大量的資料供其訓練，或許有人要問了既然這麼簡單那很多互聯網公司都可以做到啊，

差距在哪呢？第一，大型的伺服器集群，這一差距就難以逾越；第二，足夠的資料，或許很多公司的數學模型要更優秀，但如果沒有足夠大量的資料支撐，結果仍然不會太理想。然後再談談應用的問題，總體來說，最關鍵的是如何把實際中的問題與數學聯繫起來，這一階段需要跳躍性的思維，而國內的教育卻更傾向於工具知識，而非如何應用，希望不要去生硬的和實際聯繫，而是真正的去解決問題，不要去重複造輪子，而是思考一些具有開創性的東西。上述很簡單的數學模型到實際問題的應用，這一過程有太多的科學家的付出，很多問題比如機器翻譯，最開始人們並沒有想到去用數學解決，而是找語言學家對句子進行語法語義分析，

形成一套通用的語法規則實現不同語種之間的翻譯，很長時間的試錯以後，大家才慢慢地去應用數學模型解決翻譯問題。以後隨著資料越來越容易採集，計算能力越來越強大，會有更多的實際問題可以用數學模型來解決，下一個科技界的重大突破也許就是發明了某個公式或者某個數學模型的成功應用。

現在常說的人工智慧絕大部分就是在說機器學習，機器學習發展迅速，那其中都涉及到哪些數學模型呢。

一、最大熵模型

'熵'來源於熱力學，當一個系統內部沒有外力介入的時候，是處於混亂無序的狀態的，當有外力介入時，系統會變得有序，系統內部的不確定性稱之為'熵'。

舉一個不恰當但很形象的例子，屋子很久沒人收拾，時間越長會越髒亂，當有人來收拾的時候，才會變得整潔。在資訊學中，引入的外部力量為資訊，隨著獲得的資訊越多，模型的不確定性就越小，既熵越小。

最大熵模型概括來說就是只根據已知資訊推測事件發生的概率，保留全部的不確定性，對未知或不確定資訊不做任何假設推測，取其概率均值（當系統中各成分概率取均值時,系統的不確定性最大，熵最大）。

模型公式：

其中

二、決策樹

決策樹模型是一種對實例進行分類的樹形結構。決策樹由結點和有向邊組成，結點分為內部節點和葉節點，內部節點代表一個特徵或屬性，葉節點代表一個具體的類。決策樹就是一系列規則的集合，

如果滿足或不滿足某一條件就被分配到下一對應的節點，直到目標最終被分派到合適的類。

決策樹生成演算法，首先建立一個選擇函數，選擇當前用於分類的最優條件，遞迴呼叫選擇函數建立子結點直至所有測試資料都被成功分類。然後建立一個損失函數，用於決策樹剪枝防止過擬合現象，先計算某一子節點和其父結點的損失函數，如果父節點損失函數小於子節點損失函數，則去掉當前分類條件，遞迴呼叫損失函數進行剪枝，直至所有子節點的損失函數均小於父節點的損失函數。

三、隱式瑪律科夫鏈

模型描述由一個隱藏的瑪律可夫鏈隨機生成一個不可觀測的狀態隨機序列，再由各個狀態生成一個隨機觀測序列，其中假設狀態序列中，某一狀態只與其前一狀態有關，與其他狀態無關，觀測序列中，某一觀測結點隻與生成它的狀態有關。隱瑪律科夫模型由初始狀態概率分佈、狀態轉移概率分佈和觀測概率分佈確定。

四、樸素貝葉斯模型

（概率統計基礎）在貝葉斯定理的前提下，採取條件獨立性假設。

由貝葉斯公式和條件獨立性假設計算後驗概率。

大資料時代，最重要的就是如何建立恰當的數學模型，來從海量資料中挖掘出有價值的資訊。當面對具體問題，我們應如何建立模型進行解決，當有了模型以後如何獲取需要的資料。比如解決風險控制問題，從已有的資料中我們能分析出具有什麼條件的人違約風險較高，哪些資料的相關性最高，個人收入、固定資產甚至各大網站的消費記錄需不需要計入模型中，當建立好模型後又應該如何獲取新使用者的相應全部資料。如果沒有恰當的模型，資料就無法產生價值，如果缺乏資料，模型就缺少準確性和可信度。可以說沒有核心數學公式的恰當應用和海量資料的支撐就沒有現在的機器學習。

再由各個狀態生成一個隨機觀測序列，其中假設狀態序列中，某一狀態只與其前一狀態有關，與其他狀態無關，觀測序列中，某一觀測結點隻與生成它的狀態有關。隱瑪律科夫模型由初始狀態概率分佈、狀態轉移概率分佈和觀測概率分佈確定。

四、樸素貝葉斯模型

（概率統計基礎）在貝葉斯定理的前提下，採取條件獨立性假設。

由貝葉斯公式和條件獨立性假設計算後驗概率。