您的位置:首頁>美文>正文

薛定諤的佛與深度學習中的因果

《尋夢環遊記》看哭了許多人, 小男孩米格踏過花瓣橋, 也就踏入了既生又死的狀態, 出現在他眼前的, 是恢弘的亡靈世界。 如果人世間沒有人再記得,

骷髏人也將在亡靈世界煙消雲散, 這是人存在的本來景象嗎?瑪雅人祭奠的聖井, 真的是通往亡靈世界的入口嗎?瑪雅人是不是已然到達了傳說中的梵境?

緊跟著瑪雅人到達梵境的, 是現在的一批90後。 《第一批90後已經出家了》稱, 辦公室的90後已經找到人生的新方向, 宣佈成佛, “有也行, 沒有也行, 不爭不搶, 不求輸贏”, 這是真真正正的梵境, 是物我兩忘、無生無死、無真無假的量子存在。 這已經無限接近薛定諤心目中的生命體驗(life):“......‘我’這個人, 如果有, 那依照自然規律控制了‘原子運動’”;“我”的定義並非是經歷體驗的收集, 而“在收集它們的畫布之上”;如果催眠師能成功遮閉所有早期記憶, 就沒有個人存在性的損失——“也將不曾有是”。

這也是印度教意義上的佛。

統計學家眼中的佛

這些表述出現在薛定諤1944年出版的書《What is Life?》, 薛定諤說, 生命是由負熵餵養大的, 後來更正為, 自由能才是生命的源泉。 薛定諤眼裡的生命就是一團活生生的自由能, 也是普裡高津世界裡, 不斷獲取自由能的開放的耗散結構。 他既是《人民日報》鼓勵年輕人做的、不屈不撓的“鬥戰勝佛”, 也是悲憫眾生、大慈大悲的觀世音菩薩。 而統計學家眼裡的佛, 卻應該是這條神秘的鐘形曲線。

沒錯, 這個神秘的鐘形, 就是偉大的高斯分佈, 她是佛的身姿, 無時不有, 又無處不在。 中心極限定理(Central Limit Theorem)告訴我們, 即使你不能描述單一的隨機事件的發生, 大量這些單一隨機事件的群體行為卻服從高斯分佈。 高爾頓設計了一個釘板實驗, 切實驗證了這條曲線, 並從統計的觀點解釋了生物遺傳現象;1994年美國暢銷書《鐘形曲線》(The Bell Curve)則根據大量測試資料, 得出東亞人智商最高的客觀的結論;不一而足。 這或許就是“一花一世界, 一葉一如來”的統計學解釋。

高斯曲線有著優美的身形, 無處不在的神秘感, 還有著倔強的性格:打碎了, 揉爛了, 被傅裡葉變換了, 仍然還堅持自我。 兩個高斯分佈的獨立變數 X,Y 的和 X+Y 或者差 X-Y, 服從另一個高斯分佈:

反之也成立, 1936年 Cramer 證明了兩個獨立變數 X,Y 和(X+Y)如果服從高斯分佈, 則X, Y也分別服從高斯分佈。

在傅裡葉分析中, 人們觀察到, 合適方差情況下, 高斯分佈是傅裡葉變換運算元的特徵向量, 也就是說高斯分佈代表著她自己的頻率分量。 舉個例子, 如下的方程式就完美地將高斯分佈與她的傅裡葉變換關聯。 佛都是頓悟了自身的覺悟者。

最大熵原理說:一個封閉的有固定內部能量的系統, 平衡態時候熵最大;而最小能量原理則告訴我們:一個封閉的有固定熵的系統,

平衡態時候能量最小。 這其實是一件事情的兩種不同的說法。 這引出了高斯曲線更奇妙之處, 她可以在給定能量的前提下, 最大化系統的熵。 對一瓶給定溫度的氣體(能量固定), 研究發現某個粒子按照某個速度運動的可能性服從高斯分佈。

“事物由不同層次的隨機變數展現出來的資訊來表達, 不同層次上的隨機變數攜帶不同的資訊, 共同組合影響上一層的隨機變數的資訊表達, 而隨機變數對外表達的資訊則取決於該隨機變數的條件概率分佈”。 底層的多個獨立的隨機變數, 如果都服從高斯分佈, 根據上文描述的特性, 可以推斷, 一層層堆疊構成上層的隨機變數之後, 仍然服從高斯分佈。 而這個多個獨立的服從高斯分佈的隨機變數的堆疊過程,就是典型的高斯過程。高斯過程是高斯概率分佈在隨機函數空間的表現形式。

深度學習中的因果

菩薩畏因,眾生畏果。NIPS 2017上,Ali Rahimi開撕,現在的深度學習是重果不重因的煉金術,Yann LeCun則反駁說:如果你吃了一個雞蛋覺得味道不錯,何必知道是哪個母雞下的呢?!(原話不是這樣的,這是筆者蹩腳的翻譯)。Ali對於沒有理論依據的深度學習結論的憂慮,展現出其菩薩的一面:菩薩深知因果迴圈,所以主張從源頭上約束,也就是起心動念時都要看好,莫種惡因;LeCun與眾生不識因果,若種下惡因,果報來時悔之晚矣。

Bayesian學派的解決方案看起來是更接近因果的,他們從先知後覺的Bayes推理(Bayesian Inference)入手:

其中,p(⍬) 是在我們沒有看到資料之前,一個參數的先驗概率;而 p(D|⍬) 稱為似然(likelihood),它是資料 D 在給定 ⍬ 情況下的概率分佈。如果將Bayesian推理應用到深度神經網路中,人們就可以獲取在給定訓練資料集的情況下,神經網路權重 W 的後驗概率分佈 p(W|D) :

進一步,人們還可以得到神經網路輸出的後驗概率、不同大小的神經網路,以及這些不同的神經網路對應的輸出。

如果我們再假定:p(w) 先驗分佈為高斯分佈,訓練後的目標資料也遵循高斯分佈,可以推導出 p(w|D)的形式,然後最大化 p(w|D),發現其損失函數是通過權值衰減(weight decay)最小化的, 這是現代神經網路演算法中優化最大似然的常見方式。於Bayesian推理而言,最大似然就是找到一組權重 w*,使得資料集 D 的出現的可能性最大:Max (p(D|w*)) 。而學習這個權重w,就是不斷看到訓練資料後,持續改變我們原來對權重參數的認知。

在《薛定諤的滾與深度學習中的物理》一文中,筆者整理過,最大似然方法裡“似”的“然”,就是一種最低自由能的狀態,或者說對外展現出最大資訊熵的狀態。而神經網路一層層提取資訊的過程,就是尺度重整化(Scale Renormalization):“合理的尺度重整化保持了系統漢米爾頓自由能的不變性……每一次尺度變換後,自由能保持不變……能量的概率分佈不變……重整化群給出了損失函數,也就是不同層的F自由能的差異,訓練就是來最小化這個差異。”Bayesian推理與深度學習兩者,在這點上殊途同歸,都遵循這個物理本質。

Ali想要的因果,顯然不僅僅是其中的物理原理,這些人類已有的觀測結論。筆者對於讓機器真正理解因果的好奇,也是遠遠勝過發明永動機或者統一相對論與量子力學。隨機變數相互獨立且遵循高斯分佈是很強的假設,What if p(w) 不是高斯分佈呢? What if 這些隨機變數不是獨立的呢?目前,神經網路還不會主動問“What if”這樣的問題,會問的,只有人和佛。

從煉金術走向科學:強人工智慧,需要深諳因果

同一個論壇上,圖靈獎得主、貝葉斯之父 Judea Pearl 的報告《機器學習的理論障礙》(Theoretical impediments to machine learning),澄清了這個問題,同時也拋出了老人家對於讓機器理解因果的深刻見解:看到(Seeing)是相關(Association P(y|x) ),而做到(Doing)是介入(Intervention P(y|do(x),z) ),想像(Imagining)是反設事實(Counterfactuals P(yx|x',y') )。針對因果關係的不對稱性,Judea提出可以豐富概率論的數學語言,將Bayesian Network 發展為 Causal Network,從而也可以將基於歸納的煉金術,發展成基於演繹的因果推理。

正如Judea在大會上總結的:缺乏現實模型的資料科學可能是統計學,但幾乎不是科學;人類級別的強人工智慧不可能從 model-blind 的學習機器中出現。也就是說,想要強人工智慧,深諳因果是繞不過去的門檻。這裡提一下,所有現在的 Chat-Bot 聊天機器人或智慧客服,都還沒有跨過這個門檻。Judea講座是NIPS上的一股清流,無奈曲高和寡。何時才能“曲高”不“和寡”?

誇張一點說:世界上的萬事萬物都只有兩種狀態:高斯分佈或去往高斯分佈的路上,除非……,除非有一種神秘的力量、自由的能量,阻止這個趨勢。這種神秘的力量,是地球的太陽,是普利高津眼裡的耗散結構,是釋迦牟尼身邊的菩提樹,是世人應該有的修行。Judea在兒子Daniel被恐怖分子斬首後,為緩解各民族之間的仇恨多番奔走,成了他晚年的修行。每個人都在做自己的人生修行,修行就是去高斯的過程,其中應有儒家的入世,道家的淡然,佛家的悲憫。To be,or not to be? Remember me!? Fine, Anyway.

參考資料:

http://www.science4all.org/article/shannons-information-theory/

http://dlab.clemson.edu/11._Erwin_Schrodinger_-_What_is_Life__1944_.pdf

https://en.wikipedia.org/wiki/Principle_of_minimum_energy

https://www.cs.cmu.edu/afs/cs/academic/class/15782-f06/slides/bayesian.pdf

http://www.askamathematician.com/2010/02/q-whats-so-special-about-the-gaussian-distribution-a-k-a-a-normal-distribution-or-bell-curve/

https://www.zhihu.com/question/263886044/answer/274543455

http://web.cs.ucla.edu/~kaoru/theoretical-impediments.pdf

作者簡介

王慶法,中國東信CTO,首席資料官聯盟專家組成員,曾就職于斯倫貝謝、IBM、微軟、陽光保險等知名企業的研發部門16年,在傳統企業資料、大資料、機器學習、深度學習以及雲計算等領域積累了豐富的軟體發展、架構設計、技術管理、產品創新以及孵化落地的經驗。

12月20日,東方科技論壇青年學者論壇舉辦人工智慧海外博士生研討會,Jim將在新智元小程式“新智元V享圈”全程直播,歡迎圍觀!

而這個多個獨立的服從高斯分佈的隨機變數的堆疊過程,就是典型的高斯過程。高斯過程是高斯概率分佈在隨機函數空間的表現形式。

深度學習中的因果

菩薩畏因,眾生畏果。NIPS 2017上,Ali Rahimi開撕,現在的深度學習是重果不重因的煉金術,Yann LeCun則反駁說:如果你吃了一個雞蛋覺得味道不錯,何必知道是哪個母雞下的呢?!(原話不是這樣的,這是筆者蹩腳的翻譯)。Ali對於沒有理論依據的深度學習結論的憂慮,展現出其菩薩的一面:菩薩深知因果迴圈,所以主張從源頭上約束,也就是起心動念時都要看好,莫種惡因;LeCun與眾生不識因果,若種下惡因,果報來時悔之晚矣。

Bayesian學派的解決方案看起來是更接近因果的,他們從先知後覺的Bayes推理(Bayesian Inference)入手:

其中,p(⍬) 是在我們沒有看到資料之前,一個參數的先驗概率;而 p(D|⍬) 稱為似然(likelihood),它是資料 D 在給定 ⍬ 情況下的概率分佈。如果將Bayesian推理應用到深度神經網路中,人們就可以獲取在給定訓練資料集的情況下,神經網路權重 W 的後驗概率分佈 p(W|D) :

進一步,人們還可以得到神經網路輸出的後驗概率、不同大小的神經網路,以及這些不同的神經網路對應的輸出。

如果我們再假定:p(w) 先驗分佈為高斯分佈,訓練後的目標資料也遵循高斯分佈,可以推導出 p(w|D)的形式,然後最大化 p(w|D),發現其損失函數是通過權值衰減(weight decay)最小化的, 這是現代神經網路演算法中優化最大似然的常見方式。於Bayesian推理而言,最大似然就是找到一組權重 w*,使得資料集 D 的出現的可能性最大:Max (p(D|w*)) 。而學習這個權重w,就是不斷看到訓練資料後,持續改變我們原來對權重參數的認知。

在《薛定諤的滾與深度學習中的物理》一文中,筆者整理過,最大似然方法裡“似”的“然”,就是一種最低自由能的狀態,或者說對外展現出最大資訊熵的狀態。而神經網路一層層提取資訊的過程,就是尺度重整化(Scale Renormalization):“合理的尺度重整化保持了系統漢米爾頓自由能的不變性……每一次尺度變換後,自由能保持不變……能量的概率分佈不變……重整化群給出了損失函數,也就是不同層的F自由能的差異,訓練就是來最小化這個差異。”Bayesian推理與深度學習兩者,在這點上殊途同歸,都遵循這個物理本質。

Ali想要的因果,顯然不僅僅是其中的物理原理,這些人類已有的觀測結論。筆者對於讓機器真正理解因果的好奇,也是遠遠勝過發明永動機或者統一相對論與量子力學。隨機變數相互獨立且遵循高斯分佈是很強的假設,What if p(w) 不是高斯分佈呢? What if 這些隨機變數不是獨立的呢?目前,神經網路還不會主動問“What if”這樣的問題,會問的,只有人和佛。

從煉金術走向科學:強人工智慧,需要深諳因果

同一個論壇上,圖靈獎得主、貝葉斯之父 Judea Pearl 的報告《機器學習的理論障礙》(Theoretical impediments to machine learning),澄清了這個問題,同時也拋出了老人家對於讓機器理解因果的深刻見解:看到(Seeing)是相關(Association P(y|x) ),而做到(Doing)是介入(Intervention P(y|do(x),z) ),想像(Imagining)是反設事實(Counterfactuals P(yx|x',y') )。針對因果關係的不對稱性,Judea提出可以豐富概率論的數學語言,將Bayesian Network 發展為 Causal Network,從而也可以將基於歸納的煉金術,發展成基於演繹的因果推理。

正如Judea在大會上總結的:缺乏現實模型的資料科學可能是統計學,但幾乎不是科學;人類級別的強人工智慧不可能從 model-blind 的學習機器中出現。也就是說,想要強人工智慧,深諳因果是繞不過去的門檻。這裡提一下,所有現在的 Chat-Bot 聊天機器人或智慧客服,都還沒有跨過這個門檻。Judea講座是NIPS上的一股清流,無奈曲高和寡。何時才能“曲高”不“和寡”?

誇張一點說:世界上的萬事萬物都只有兩種狀態:高斯分佈或去往高斯分佈的路上,除非……,除非有一種神秘的力量、自由的能量,阻止這個趨勢。這種神秘的力量,是地球的太陽,是普利高津眼裡的耗散結構,是釋迦牟尼身邊的菩提樹,是世人應該有的修行。Judea在兒子Daniel被恐怖分子斬首後,為緩解各民族之間的仇恨多番奔走,成了他晚年的修行。每個人都在做自己的人生修行,修行就是去高斯的過程,其中應有儒家的入世,道家的淡然,佛家的悲憫。To be,or not to be? Remember me!? Fine, Anyway.

參考資料:

http://www.science4all.org/article/shannons-information-theory/

http://dlab.clemson.edu/11._Erwin_Schrodinger_-_What_is_Life__1944_.pdf

https://en.wikipedia.org/wiki/Principle_of_minimum_energy

https://www.cs.cmu.edu/afs/cs/academic/class/15782-f06/slides/bayesian.pdf

http://www.askamathematician.com/2010/02/q-whats-so-special-about-the-gaussian-distribution-a-k-a-a-normal-distribution-or-bell-curve/

https://www.zhihu.com/question/263886044/answer/274543455

http://web.cs.ucla.edu/~kaoru/theoretical-impediments.pdf

作者簡介

王慶法,中國東信CTO,首席資料官聯盟專家組成員,曾就職于斯倫貝謝、IBM、微軟、陽光保險等知名企業的研發部門16年,在傳統企業資料、大資料、機器學習、深度學習以及雲計算等領域積累了豐富的軟體發展、架構設計、技術管理、產品創新以及孵化落地的經驗。

12月20日,東方科技論壇青年學者論壇舉辦人工智慧海外博士生研討會,Jim將在新智元小程式“新智元V享圈”全程直播,歡迎圍觀!

Next Article
喜欢就按个赞吧!!!
点击关闭提示