作者從薛定諤的“滾”講到世界的量子性、神經網路的最大似然等等, 用頗具趣味的方式呈現了深度學習中無處不在的物理本質。
最近朋友圈裡有大神分享薛定諤的滾, 一下子火了, “當一個妹子叫你滾的時候, 你永遠不知道她是在叫你滾還是叫你過來抱緊”, 這確實是一種十分糾結的狀態, 而薛定諤是搞不清楚的, 他連自己的貓是怎麼回事還沒有弄清楚。 雖然人們對於薛定諤頭腦中那只被放射性物質殘害的貓的生死一直眾說紛紜, 斯特恩·蓋拉赫卻在實驗中, 實實在在看到了, 我們身處的這個物理世界的量子性,
量子性是這個世界已知的基本特徵, 未來的世界是我們的, 也是你們的, 但歸根結底是量子的:通訊將是量子的, 計算將是量子的, 人工智慧也將是量子的。 這個物理世界運行的基本邏輯, 決定了我們身邊的一切。 不要再糾結是莊周做夢變成了蝴蝶、還是蝴蝶做夢變成了莊周, 不要再迷惑南科大朱老師的物質意識的雞與蛋的問題, 拿起你的手機使勁往地上一摔, 你就知道這個世界是客觀的還是主觀的了。
當然量子性不一定是終極真理, 還有許多神秘的現象需要解釋, 比如有鬼魅般超距作用的量子糾纏。
大部分的現代神經網路演算法都是利用最大似然法(Maximum Likelyhood)訓練的, IanGoodfellow 與Yoshua Bengio更是在他們著的《深度學習》一書中詳述了利用香農的資訊熵構建深度學習損失函數的通用形式:
這些神經網路“似”的什麼“然”呢?損失函數中的條件概率、資訊熵向我們傳達一個怎樣的思想呢?在《迷人的資料與香農的視角》(http://mp.weixin.qq.com/s/qgWU6qbEsgXP6GKTVvE6Hg)一文中,
而這個最大似然, 不是沒有條件的, 注意到“充分發展”這個說法了嗎?“充分發展”的系統是一種相對穩定的系統。 我在《站在香農與玻爾茲曼肩上, 看深度學習的術與道》(http://mp.weixin.qq.com/s/T6YWQY2yUto4eZa3lEgY3Q)文中強調過,
上文中提到的“玻爾茲曼分佈”, 是描述理想氣體在受保守外力作用、或保守外力場的作用不可忽略時, 處於熱平衡態下的氣體分子按能量的分佈規律:
這裡的 q 叫做配分函數(Partition Function),就是系統中粒子在不同能量級上的分佈,
因模型簡單與高度抽象, IsingModel被廣泛應用於自然科學與社會科學等眾多領域。 如果將小磁鍼看作神經元, 磁鍼狀態看作激發與抑制, Ising Model 也可以用來構建深度學習的Hopfield模型, 或者玻爾茲曼機 。Hopfield Associative Memory (HAM)是經典的神經網路,它僅包含顯式神經單元,給這些單元賦予能量,經過推導,我們可以得到這個神經網路的配分函數和自由能運算式,看起來是不是似曾相識?
不過HAM模型有不少顯而易見的缺點(無法一層層提取潛變數的資訊),Hinton因而創造了有隱含神經元的RBM。
在《迷人的資料與香農的視角》與《站在香農與玻爾茲曼肩上,看深度學習的術與道》兩文中,我反復介紹了自己的“頓悟”:“事物由不同層次的隨機變數展現出來的資訊來表達,不同層次上的隨機變數攜帶不同的資訊,共同組合影響上一層的隨機變數的資訊表達,而隨機變數對外表達的資訊則取決於該隨機變數的條件概率分佈”。如果要給這個“頓悟”找個科學的解釋,最合適就是尺度重整化(ScaleRenormalization)了。Charles H Martin博士2015年在其文章 《Why Deep Learning Works II: theRenormalization Group》提到,在神經網路中引入隱含節點就是尺度重整化。
每次尺度變換後,我們計算系統有效的漢米爾頓能量,作用在新的特徵空間(潛變數空間),合理的尺度重整化保持了系統漢米爾頓自由能的不變性。注意這裡的能量守恆,它確保了尺度重整化的合理性。每一次尺度變換後,自由能保持不變。F =-lnZ, 這裡Z是配分函數(上文的q),是一個能量(不同能級上粒子數)的概率分佈,Z不變,即能量的概率分佈不變,就是要求潛變數的特徵空間中的大尺度“粒子”能滿足原來能量的概率分佈。重整化群給出了損失函數,也就是不同層的F自由能的差異, 訓練就是來最小化這個差異。
這麼多的基礎理論,展現了深度學習中的無處不在的物理本質。我還可以舉幾個大家熟悉的例子,激發思考:CNN 中卷積的意義是什麼,平滑輸入特徵對最終的模型為什麼是有效的,為什麼池化(pooling)很實用?動量(Momentum)優化方法為什麼比普通的SGD快,而且適用高曲率的場合? 為什麼Dropout是高效、低能耗的 規則化(Regularization)方法?為何Lecun新提出的EBGAN有更好的收斂模式和生成高解析度圖像的可擴展性?不一而足,深度學習實驗室應該多歡迎一些物理背景的學者參與進來啊!
人法地,地法天,天法道,道法自然。在女生節、女神節裡,對身邊可愛、聰慧、善良、溫婉、賢慧與偉大的女性同胞多一聲祝福,衷心希望男同胞不要收到“薛定諤的滾”!用智慧的頭腦,不斷重整化我們的認知、態度,讓和諧與美好成為最大似然。
End.
http://www.itongji.cn
或者玻爾茲曼機 。Hopfield Associative Memory (HAM)是經典的神經網路,它僅包含顯式神經單元,給這些單元賦予能量,經過推導,我們可以得到這個神經網路的配分函數和自由能運算式,看起來是不是似曾相識?不過HAM模型有不少顯而易見的缺點(無法一層層提取潛變數的資訊),Hinton因而創造了有隱含神經元的RBM。
在《迷人的資料與香農的視角》與《站在香農與玻爾茲曼肩上,看深度學習的術與道》兩文中,我反復介紹了自己的“頓悟”:“事物由不同層次的隨機變數展現出來的資訊來表達,不同層次上的隨機變數攜帶不同的資訊,共同組合影響上一層的隨機變數的資訊表達,而隨機變數對外表達的資訊則取決於該隨機變數的條件概率分佈”。如果要給這個“頓悟”找個科學的解釋,最合適就是尺度重整化(ScaleRenormalization)了。Charles H Martin博士2015年在其文章 《Why Deep Learning Works II: theRenormalization Group》提到,在神經網路中引入隱含節點就是尺度重整化。
每次尺度變換後,我們計算系統有效的漢米爾頓能量,作用在新的特徵空間(潛變數空間),合理的尺度重整化保持了系統漢米爾頓自由能的不變性。注意這裡的能量守恆,它確保了尺度重整化的合理性。每一次尺度變換後,自由能保持不變。F =-lnZ, 這裡Z是配分函數(上文的q),是一個能量(不同能級上粒子數)的概率分佈,Z不變,即能量的概率分佈不變,就是要求潛變數的特徵空間中的大尺度“粒子”能滿足原來能量的概率分佈。重整化群給出了損失函數,也就是不同層的F自由能的差異, 訓練就是來最小化這個差異。
這麼多的基礎理論,展現了深度學習中的無處不在的物理本質。我還可以舉幾個大家熟悉的例子,激發思考:CNN 中卷積的意義是什麼,平滑輸入特徵對最終的模型為什麼是有效的,為什麼池化(pooling)很實用?動量(Momentum)優化方法為什麼比普通的SGD快,而且適用高曲率的場合? 為什麼Dropout是高效、低能耗的 規則化(Regularization)方法?為何Lecun新提出的EBGAN有更好的收斂模式和生成高解析度圖像的可擴展性?不一而足,深度學習實驗室應該多歡迎一些物理背景的學者參與進來啊!
人法地,地法天,天法道,道法自然。在女生節、女神節裡,對身邊可愛、聰慧、善良、溫婉、賢慧與偉大的女性同胞多一聲祝福,衷心希望男同胞不要收到“薛定諤的滾”!用智慧的頭腦,不斷重整化我們的認知、態度,讓和諧與美好成為最大似然。
End.
http://www.itongji.cn