薛定諤的佛與深度學習中的因果

《尋夢環遊記》看哭了許多人，小男孩米格踏過花瓣橋，也就踏入了既生又死的狀態，出現在他眼前的，是恢弘的亡靈世界。如果人世間沒有人再記得，

骷髏人也將在亡靈世界煙消雲散，這是人存在的本來景象嗎？瑪雅人祭奠的聖井，真的是通往亡靈世界的入口嗎？瑪雅人是不是已然到達了傳說中的梵境？

緊跟著瑪雅人到達梵境的，是現在的一批90後。《第一批90後已經出家了》稱，辦公室的90後已經找到人生的新方向，宣佈成佛， “有也行，沒有也行，不爭不搶，不求輸贏”，這是真真正正的梵境，是物我兩忘、無生無死、無真無假的量子存在。這已經無限接近薛定諤心目中的生命體驗（life）：“......‘我’這個人，如果有，那依照自然規律控制了‘原子運動’”；“我”的定義並非是經歷體驗的收集，而“在收集它們的畫布之上”；如果催眠師能成功遮閉所有早期記憶，就沒有個人存在性的損失——“也將不曾有是”。

這也是印度教意義上的佛。

統計學家眼中的佛

這些表述出現在薛定諤1944年出版的書《What is Life?》，薛定諤說，生命是由負熵餵養大的，後來更正為，自由能才是生命的源泉。薛定諤眼裡的生命就是一團活生生的自由能，也是普裡高津世界裡，不斷獲取自由能的開放的耗散結構。他既是《人民日報》鼓勵年輕人做的、不屈不撓的“鬥戰勝佛”, 也是悲憫眾生、大慈大悲的觀世音菩薩。而統計學家眼裡的佛，卻應該是這條神秘的鐘形曲線。

沒錯，這個神秘的鐘形，就是偉大的高斯分佈，她是佛的身姿，無時不有，又無處不在。中心極限定理（Central Limit Theorem）告訴我們，即使你不能描述單一的隨機事件的發生，大量這些單一隨機事件的群體行為卻服從高斯分佈。高爾頓設計了一個釘板實驗，切實驗證了這條曲線，並從統計的觀點解釋了生物遺傳現象；1994年美國暢銷書《鐘形曲線》（The Bell Curve）則根據大量測試資料，得出東亞人智商最高的客觀的結論；不一而足。這或許就是“一花一世界，一葉一如來”的統計學解釋。

高斯曲線有著優美的身形，無處不在的神秘感，還有著倔強的性格：打碎了，揉爛了，被傅裡葉變換了，仍然還堅持自我。兩個高斯分佈的獨立變數 X,Y 的和 X+Y 或者差 X-Y，服從另一個高斯分佈：

反之也成立， 1936年 Cramer 證明了兩個獨立變數 X,Y 和（X+Y）如果服從高斯分佈，則X， Y也分別服從高斯分佈。

在傅裡葉分析中，人們觀察到，合適方差情況下，高斯分佈是傅裡葉變換運算元的特徵向量，也就是說高斯分佈代表著她自己的頻率分量。舉個例子，如下的方程式就完美地將高斯分佈與她的傅裡葉變換關聯。佛都是頓悟了自身的覺悟者。

最大熵原理說：一個封閉的有固定內部能量的系統，平衡態時候熵最大；而最小能量原理則告訴我們：一個封閉的有固定熵的系統，

平衡態時候能量最小。這其實是一件事情的兩種不同的說法。這引出了高斯曲線更奇妙之處，她可以在給定能量的前提下，最大化系統的熵。對一瓶給定溫度的氣體（能量固定），研究發現某個粒子按照某個速度運動的可能性服從高斯分佈。

“事物由不同層次的隨機變數展現出來的資訊來表達，不同層次上的隨機變數攜帶不同的資訊，共同組合影響上一層的隨機變數的資訊表達，而隨機變數對外表達的資訊則取決於該隨機變數的條件概率分佈”。底層的多個獨立的隨機變數，如果都服從高斯分佈，根據上文描述的特性，可以推斷，一層層堆疊構成上層的隨機變數之後，仍然服從高斯分佈。而這個多個獨立的服從高斯分佈的隨機變數的堆疊過程，就是典型的高斯過程。高斯過程是高斯概率分佈在隨機函數空間的表現形式。

深度學習中的因果

菩薩畏因，眾生畏果。NIPS 2017上，Ali Rahimi開撕，現在的深度學習是重果不重因的煉金術，Yann LeCun則反駁說：如果你吃了一個雞蛋覺得味道不錯，何必知道是哪個母雞下的呢？！（原話不是這樣的，這是筆者蹩腳的翻譯）。Ali對於沒有理論依據的深度學習結論的憂慮，展現出其菩薩的一面：菩薩深知因果迴圈，所以主張從源頭上約束，也就是起心動念時都要看好，莫種惡因；LeCun與眾生不識因果，若種下惡因，果報來時悔之晚矣。

Bayesian學派的解決方案看起來是更接近因果的，他們從先知後覺的Bayes推理（Bayesian Inference）入手：

其中，p(⍬) 是在我們沒有看到資料之前，一個參數的先驗概率；而 p(D|⍬) 稱為似然（likelihood），它是資料 D 在給定 ⍬ 情況下的概率分佈。如果將Bayesian推理應用到深度神經網路中，人們就可以獲取在給定訓練資料集的情況下，神經網路權重 W 的後驗概率分佈 p(W|D) ：

進一步，人們還可以得到神經網路輸出的後驗概率、不同大小的神經網路，以及這些不同的神經網路對應的輸出。

如果我們再假定：p(w) 先驗分佈為高斯分佈，訓練後的目標資料也遵循高斯分佈，可以推導出 p（w|D）的形式，然後最大化 p（w|D），發現其損失函數是通過權值衰減（weight decay）最小化的，這是現代神經網路演算法中優化最大似然的常見方式。於Bayesian推理而言，最大似然就是找到一組權重 w*，使得資料集 D 的出現的可能性最大：Max (p(D|w*)) 。而學習這個權重w，就是不斷看到訓練資料後，持續改變我們原來對權重參數的認知。

在《薛定諤的滾與深度學習中的物理》一文中，筆者整理過，最大似然方法裡“似”的“然”，就是一種最低自由能的狀態，或者說對外展現出最大資訊熵的狀態。而神經網路一層層提取資訊的過程，就是尺度重整化（Scale Renormalization）：“合理的尺度重整化保持了系統漢米爾頓自由能的不變性……每一次尺度變換後，自由能保持不變……能量的概率分佈不變……重整化群給出了損失函數，也就是不同層的F自由能的差異，訓練就是來最小化這個差異。”Bayesian推理與深度學習兩者，在這點上殊途同歸，都遵循這個物理本質。

Ali想要的因果，顯然不僅僅是其中的物理原理，這些人類已有的觀測結論。筆者對於讓機器真正理解因果的好奇，也是遠遠勝過發明永動機或者統一相對論與量子力學。隨機變數相互獨立且遵循高斯分佈是很強的假設，What if p(w) 不是高斯分佈呢？ What if 這些隨機變數不是獨立的呢？目前，神經網路還不會主動問“What if”這樣的問題，會問的，只有人和佛。

從煉金術走向科學：強人工智慧，需要深諳因果

同一個論壇上，圖靈獎得主、貝葉斯之父 Judea Pearl 的報告《機器學習的理論障礙》（Theoretical impediments to machine learning），澄清了這個問題，同時也拋出了老人家對於讓機器理解因果的深刻見解：看到（Seeing）是相關（Association P(y|x) ），而做到（Doing）是介入（Intervention P(y|do(x),z) ），想像（Imagining）是反設事實（Counterfactuals P(yx|x',y') ）。針對因果關係的不對稱性，Judea提出可以豐富概率論的數學語言，將Bayesian Network 發展為 Causal Network，從而也可以將基於歸納的煉金術，發展成基於演繹的因果推理。

正如Judea在大會上總結的：缺乏現實模型的資料科學可能是統計學，但幾乎不是科學；人類級別的強人工智慧不可能從 model-blind 的學習機器中出現。也就是說，想要強人工智慧，深諳因果是繞不過去的門檻。這裡提一下，所有現在的 Chat-Bot 聊天機器人或智慧客服，都還沒有跨過這個門檻。Judea講座是NIPS上的一股清流，無奈曲高和寡。何時才能“曲高”不“和寡”？

誇張一點說：世界上的萬事萬物都只有兩種狀態：高斯分佈或去往高斯分佈的路上，除非……，除非有一種神秘的力量、自由的能量，阻止這個趨勢。這種神秘的力量，是地球的太陽，是普利高津眼裡的耗散結構，是釋迦牟尼身邊的菩提樹，是世人應該有的修行。Judea在兒子Daniel被恐怖分子斬首後，為緩解各民族之間的仇恨多番奔走，成了他晚年的修行。每個人都在做自己的人生修行，修行就是去高斯的過程，其中應有儒家的入世，道家的淡然，佛家的悲憫。To be，or not to be？ Remember me!？ Fine, Anyway.

參考資料：

http://www.science4all.org/article/shannons-information-theory/

http://dlab.clemson.edu/11._Erwin_Schrodinger_-_What_is_Life__1944_.pdf

https://en.wikipedia.org/wiki/Principle_of_minimum_energy

https://www.cs.cmu.edu/afs/cs/academic/class/15782-f06/slides/bayesian.pdf

http://www.askamathematician.com/2010/02/q-whats-so-special-about-the-gaussian-distribution-a-k-a-a-normal-distribution-or-bell-curve/

https://www.zhihu.com/question/263886044/answer/274543455

http://web.cs.ucla.edu/~kaoru/theoretical-impediments.pdf

作者簡介

王慶法，中國東信CTO，首席資料官聯盟專家組成員，曾就職于斯倫貝謝、IBM、微軟、陽光保險等知名企業的研發部門16年，在傳統企業資料、大資料、機器學習、深度學習以及雲計算等領域積累了豐富的軟體發展、架構設計、技術管理、產品創新以及孵化落地的經驗。

12月20日，東方科技論壇青年學者論壇舉辦人工智慧海外博士生研討會，Jim將在新智元小程式“新智元V享圈”全程直播，歡迎圍觀！

而這個多個獨立的服從高斯分佈的隨機變數的堆疊過程，就是典型的高斯過程。高斯過程是高斯概率分佈在隨機函數空間的表現形式。