數學之于電腦的應用, 就像電腦之于商業的應用, 只要應用得恰當都能實現飛躍性的進步。
.
數學之美就在於能把生活中非常複雜的問題, 抽象成一個個簡單的公式進行簡化、解決。 現在很火的語音辨識、圖像識別、自動駕駛、卷積神經網路、深度學習等等, 其實就是機器學習, 用的原理很簡單, 就是樸素貝葉斯模型、隱式瑪律科夫鏈、決策樹等等一系列數學模型, 而具體的應用就是把數學模型中的參數替換成相應的資料即可, 比如訓練自動駕駛模型用的參數就是車距、速度、路面高低、濕度、風速....讀者也不要覺得數學公式的名字很深奧,
.
公式並不複雜, 最關鍵的是如何應用, 如何確定模型和參數, 當面對具體問題時可不可以抽象成數學問題, 應該用哪方面的數學知識解決, 應該用哪個模型, 訓練的參數有哪些, 有沒有訓練模型的資料, 有沒有足夠的計算能力這都是十分關鍵的問題。 就拿GoogleBrain來說, 其實就是把神經網路模型拆分成N個關聯的部分並分佈到大型的伺服器集群上進行平行計算(就像MapReduce),研究人員可以把自己的數學模型運行在GooogleBrain上, 只要參數定了Google可以收集提供大量的資料供其訓練, 或許有人要問了既然這麼簡單那很多互聯網公司都可以做到啊,
.
現在常說的人工智慧絕大部分就是在說機器學習, 機器學習發展迅速, 那其中都涉及到哪些數學模型呢。
一、最大熵模型
.
'熵'來源於熱力學, 當一個系統內部沒有外力介入的時候, 是處於混亂無序的狀態的, 當有外力介入時, 系統會變得有序, 系統內部的不確定性稱之為'熵'。
.
最大熵模型概括來說就是只根據已知資訊推測事件發生的概率, 保留全部的不確定性, 對未知或不確定資訊不做任何假設推測, 取其概率均值(當系統中各成分概率取均值時,系統的不確定性最大, 熵最大)。
模型公式:
其中
二、決策樹
決策樹模型是一種對實例進行分類的樹形結構。 決策樹由結點和有向邊組成, 結點分為內部節點和葉節點, 內部節點代表一個特徵或屬性, 葉節點代表一個具體的類。 決策樹就是一系列規則的集合,
決策樹生成演算法, 首先建立一個選擇函數, 選擇當前用於分類的最優條件, 遞迴呼叫選擇函數建立子結點直至所有測試資料都被成功分類。 然後建立一個損失函數, 用於決策樹剪枝防止過擬合現象, 先計算某一子節點和其父結點的損失函數, 如果父節點損失函數小於子節點損失函數, 則去掉當前分類條件, 遞迴呼叫損失函數進行剪枝, 直至所有子節點的損失函數均小於父節點的損失函數。
三、隱式瑪律科夫鏈
模型描述由一個隱藏的瑪律可夫鏈隨機生成一個不可觀測的狀態隨機序列, 再由各個狀態生成一個隨機觀測序列,其中假設狀態序列中,某一狀態只與其前一狀態有關,與其他狀態無關,觀測序列中,某一觀測結點隻與生成它的狀態有關。隱瑪律科夫模型由初始狀態概率分佈、狀態轉移概率分佈和觀測概率分佈確定。
四、樸素貝葉斯模型
(概率統計基礎)在貝葉斯定理的前提下,採取條件獨立性假設。
由貝葉斯公式和條件獨立性假設計算後驗概率。
大資料時代,最重要的就是如何建立恰當的數學模型,來從海量資料中挖掘出有價值的資訊。當面對具體問題,我們應如何建立模型進行解決,當有了模型以後如何獲取需要的資料。比如解決風險控制問題,從已有的資料中我們能分析出具有什麼條件的人違約風險較高,哪些資料的相關性最高,個人收入、固定資產甚至各大網站的消費記錄需不需要計入模型中,當建立好模型後又應該如何獲取新使用者的相應全部資料。如果沒有恰當的模型,資料就無法產生價值,如果缺乏資料,模型就缺少準確性和可信度。可以說沒有核心數學公式的恰當應用和海量資料的支撐就沒有現在的機器學習。
再由各個狀態生成一個隨機觀測序列,其中假設狀態序列中,某一狀態只與其前一狀態有關,與其他狀態無關,觀測序列中,某一觀測結點隻與生成它的狀態有關。隱瑪律科夫模型由初始狀態概率分佈、狀態轉移概率分佈和觀測概率分佈確定。四、樸素貝葉斯模型
(概率統計基礎)在貝葉斯定理的前提下,採取條件獨立性假設。
由貝葉斯公式和條件獨立性假設計算後驗概率。
大資料時代,最重要的就是如何建立恰當的數學模型,來從海量資料中挖掘出有價值的資訊。當面對具體問題,我們應如何建立模型進行解決,當有了模型以後如何獲取需要的資料。比如解決風險控制問題,從已有的資料中我們能分析出具有什麼條件的人違約風險較高,哪些資料的相關性最高,個人收入、固定資產甚至各大網站的消費記錄需不需要計入模型中,當建立好模型後又應該如何獲取新使用者的相應全部資料。如果沒有恰當的模型,資料就無法產生價值,如果缺乏資料,模型就缺少準確性和可信度。可以說沒有核心數學公式的恰當應用和海量資料的支撐就沒有現在的機器學習。