您的位置:首頁>正文

顧險峰:看穿機器學習的黑箱(II)

海歸學者發起的公益學術平臺

分享資訊, 整合資源

交流學術, 偶爾風月

最近, 機器學習領域的Wasserstein GAN突然變得火熱, 其中的關鍵概念應該如何通過幾何來解釋?我們怎樣才能在一定程度上親眼“看穿”傳統機器學習中的“黑箱”。

讓我們來看看顧險峰教授2016年和丘成桐先生、羅鋒教授共同完成的幾何定理, 是如何對上述問題進行解答的。 本文系連載第二篇, 經顧教授授權轉載, 特別致謝。 前篇請見:

圖1. 基於最優傳輸映射(Optimal Mass Transportation Map)的保面積映射(area-preserving mapping)。

今天老顧講解了Wasserstein GAN模型和最優傳輸理論的幾何解釋, 詳細給出了W-GAN中關鍵概念的幾何理解, 包括概率分佈(probability distribution)、最優傳輸映射(Optimal Mass Transportation Map)、Brenier勢能、Wasserstein距離等等。 理論上, 深度學習領域中常用的概率生成模型(Generataive Model)都可以用最優傳輸理論來分析, 隨機變數生成器都可以用最優傳輸映射來構造。 相比于傳統神秘莫測的深度神經網路(DNN), 最優傳輸映射是完全透明的, 用最優傳輸理論來探索深度神經網路, 可以説明我們更好的理解深度學習的本質。 今天, 很多研究生和幾位教授聽了老顧的講座, 隨後和老顧展開了熱烈的討論, 並對一些基本問題展開了深入的交流。 下面, 老顧開始撰寫下一次的課程講義。

深度學習的方法強勁有力, 幾乎橫掃視覺的所有領域, 很多人將其歸功於神經網路的萬有逼近能力(universal approximation property):給定一個連續函數或者映射, 理論上可以用(一個包含足夠多神經元的隱層)多層前饋網路逼近到任意精度。 對此, 老顧提出另外的觀點:有些情況下, 神經網路逼近的不是函數或映射, 而是概率分佈;更為重要的, 逼近概率分佈比逼近映射要容易得多。 更為精密的說法如下:在理想情況下, 即逼近誤差為零的情形, 如果神經網路逼近一個映射, 那麼解空間只包含一個映射;如果神經網路逼近一個概率分佈, 那麼解空間包含無窮個映射, 這些映射的差別構成一個無窮維李群。

我們這一講就是要證明這個觀點,

所用的工具是(包括無窮維)微分幾何。

二十年前, 老顧在哈佛學習的時候, Mumford教授、師兄朱松純就已經系統性地將統計引入視覺, 他們提出了用圖像空間中的概率分佈來表示視覺概念的綱領。 今天, 一些深度學習的模型(例如GAN)所遵循的原則和他們的綱領是一脈相承的。 這也正是老顧更為看好逼近概率分佈, 而非逼近映射的原因之一。

概率生成模型

我們先看最簡單的(偽)亂數產生器。 我們選取適當的整數, 計算序列

那麼給出了隨機變數, 符合單位區間的均勻分佈(uniform distribution)。 由均勻分佈, 我們可以生成任意的概率分佈。 例如, 我們可以構造一個映射, 將單位正方形上的均勻分佈映射成平面上的高斯分佈:

圖2. 怪獸的最優傳輸映射。

在上一講中, 我們給出了最優傳輸理論的幾何解釋。 給定一個區域, 其上定義著兩個概率測度和, 則唯一存在一個最優傳輸映射, 將概率分佈映射成概率分佈, 亦即對於一切可測集合,

,

記為, 並且極小化傳輸代價

這個最優傳輸映射是某個凸函數的梯度映射, 這個凸函數被稱為是Brenier勢能函數,滿足蒙日-安培方程。如圖2所示,我們將怪獸曲面(第一幀和第四幀)保角地映射到平面圓盤上面(第二幀),保角映射將曲面的面積元映射到平面上,誘導了平面圓盤上的一個概率測度。平面圓盤上也有均勻概率分佈(第三幀),從第二幀到第三幀的映射為最優傳輸映射。圖1和圖3顯示了基於最優傳輸映射的曲面保面積參數化(Surface Area-preserving Parameterization)。

圖3. 基於最優傳輸映射(Optimal Mass Transportation Map)的保面積映射(area-preserving mapping)。

在Wasserstein生成對抗網路中(Generative Adversarial Network), 生成器(generator)可以被抽象為一個非線性映射。將全空間映到自身,同時將均勻概率分佈映射成概率分佈,,同時儘量極小化概率分佈和真實資料概率分佈之間的Wasserstein距離。那麼,我們的問題是:

滿足保持測度條件的映射是否唯一?如果不唯一,又有多少?

對於這個問題的徹底解答需要用到映射極分解理論(Mapping Polar Decomposition)。

映射極分解理論

我們考慮所有的可微雙射,滿足條件。存在唯一的最優傳輸映射,它是Brenier勢能函數的梯度映射。映射的極分解理論就是說可以分解成兩個映射的複合(composition),

,

這裡映射保持初始測度不變,因此的雅克比行列式處處為1。所有這種在映射複合的意義下構成一個李群(Lie Group),被稱為是保體積微分同胚群(Volume-Preserving Diffeomorphisms),記為。我們下面來說明,這個李群是無窮維的。

圖4. 曲面上的光滑向量場。

如圖4所示,我們在曲面上構造一個光滑切向量場,則切向量場誘導了曲面到自身的一個單參數微分同胚群,滿足常微分方程:

直觀上,切向量場可以視作曲面上的一個流場,每一點p依隨這個流場流動,流動的速度向量等於向量場在p點處的切向量。在時刻 t,流場初始點到終點的映射,就給出了微分同胚。那麼,如果切向量場的散度(divergence)處處為0,則的雅克比行列式處處為1,即不可壓縮流場誘導保體積微分同胚。這一點,可以用嘉當的神奇公式來證明(Cartan's Magic Formula)。

我們來仔細解釋嘉當的神奇公式。我們以平面為例,平面的面元是一個2階微分形式(2-form)。考察任意一個區域,在微分同胚下的像為區域。像的面積為

,

由此,我們定義所謂的拉回2-form,

,

那麼關於時間t的導數被稱為面元關於向量場的李導數(Lie Derivative),記為

嘉當的神奇公式具有形式:

這裡d是外微分運算元。在平面上,為2-形式,因此恒為0。如果向量場散度處處為0,則恒為0。直接計算得到:

因此 我們得到

因此面元關於向量場的李導數為零。微分同胚保持面元不變,的雅克比行列式處處為1。

由此可見,曲面上不可壓縮流場(散度為0的切向量場)誘導保面積微分同胚。曲面上任選一個光滑函數,其梯度場旋量處處為0。在曲面上任意一點p處,我們將梯度向量圍繞法向量逆時針旋轉90度,所得的向量場散度處處為0。我們知道,曲面上的函數是無窮維的,因此無散場也是無窮維的,保面積微分同胚群也是無窮維的。

我們現在可以回答上面提出的問題,滿足保持測度條件的映射不唯一;所有這種映射可以表示成保體積微分同胚和最優傳輸映射的複合;保體積微分同胚是無窮維的。

圖5. 兩個滿足保測度條件的映射,彼此相差一個保體積微分同胚。

從理論上講,如果我們兩次訓練GAN網路,其生成器所得到的映射之間相差一個保體積微分同胚。保體積微分同胚群內有一個自然的黎曼度量:我們在保體積微分同胚群內構造一條路徑,

,

連接著兩個同胚,。這條路徑的長度可以計算

,

兩個保體積微分同胚之間的距離定義為連接它們的所有路徑長度中最短者。用這個度量,我們可以定量測量兩次訓練結果的內在差異程度。保體積微分同胚群的度量幾何(無窮維微分幾何)在視覺領域和醫學圖像領域被作為形狀空間的一種理論工具。

小結

通過以上討論,我們看到如果用一個深度學習的網路來逼近一個映射,解空間只有一個映射;如果來逼近一個概率分佈,則解空間為無窮維的保體積微分同胚群。因此,用深度學習網路來逼近一個概率分佈要比逼近一個映射、函數容易得多。這或許可以用來解釋如下的現象:基於老顧以往的經驗,我們用神經網路來求解非線性偏微分方程,要比用神經網路給圖像分類困難,因為前者需要精確逼近泛函空間中的可逆映射,而後者需要逼近圖像空間中的概率分佈。

這個凸函數被稱為是Brenier勢能函數,滿足蒙日-安培方程。如圖2所示,我們將怪獸曲面(第一幀和第四幀)保角地映射到平面圓盤上面(第二幀),保角映射將曲面的面積元映射到平面上,誘導了平面圓盤上的一個概率測度。平面圓盤上也有均勻概率分佈(第三幀),從第二幀到第三幀的映射為最優傳輸映射。圖1和圖3顯示了基於最優傳輸映射的曲面保面積參數化(Surface Area-preserving Parameterization)。

圖3. 基於最優傳輸映射(Optimal Mass Transportation Map)的保面積映射(area-preserving mapping)。

在Wasserstein生成對抗網路中(Generative Adversarial Network), 生成器(generator)可以被抽象為一個非線性映射。將全空間映到自身,同時將均勻概率分佈映射成概率分佈,,同時儘量極小化概率分佈和真實資料概率分佈之間的Wasserstein距離。那麼,我們的問題是:

滿足保持測度條件的映射是否唯一?如果不唯一,又有多少?

對於這個問題的徹底解答需要用到映射極分解理論(Mapping Polar Decomposition)。

映射極分解理論

我們考慮所有的可微雙射,滿足條件。存在唯一的最優傳輸映射,它是Brenier勢能函數的梯度映射。映射的極分解理論就是說可以分解成兩個映射的複合(composition),

,

這裡映射保持初始測度不變,因此的雅克比行列式處處為1。所有這種在映射複合的意義下構成一個李群(Lie Group),被稱為是保體積微分同胚群(Volume-Preserving Diffeomorphisms),記為。我們下面來說明,這個李群是無窮維的。

圖4. 曲面上的光滑向量場。

如圖4所示,我們在曲面上構造一個光滑切向量場,則切向量場誘導了曲面到自身的一個單參數微分同胚群,滿足常微分方程:

直觀上,切向量場可以視作曲面上的一個流場,每一點p依隨這個流場流動,流動的速度向量等於向量場在p點處的切向量。在時刻 t,流場初始點到終點的映射,就給出了微分同胚。那麼,如果切向量場的散度(divergence)處處為0,則的雅克比行列式處處為1,即不可壓縮流場誘導保體積微分同胚。這一點,可以用嘉當的神奇公式來證明(Cartan's Magic Formula)。

我們來仔細解釋嘉當的神奇公式。我們以平面為例,平面的面元是一個2階微分形式(2-form)。考察任意一個區域,在微分同胚下的像為區域。像的面積為

,

由此,我們定義所謂的拉回2-form,

,

那麼關於時間t的導數被稱為面元關於向量場的李導數(Lie Derivative),記為

嘉當的神奇公式具有形式:

這裡d是外微分運算元。在平面上,為2-形式,因此恒為0。如果向量場散度處處為0,則恒為0。直接計算得到:

因此 我們得到

因此面元關於向量場的李導數為零。微分同胚保持面元不變,的雅克比行列式處處為1。

由此可見,曲面上不可壓縮流場(散度為0的切向量場)誘導保面積微分同胚。曲面上任選一個光滑函數,其梯度場旋量處處為0。在曲面上任意一點p處,我們將梯度向量圍繞法向量逆時針旋轉90度,所得的向量場散度處處為0。我們知道,曲面上的函數是無窮維的,因此無散場也是無窮維的,保面積微分同胚群也是無窮維的。

我們現在可以回答上面提出的問題,滿足保持測度條件的映射不唯一;所有這種映射可以表示成保體積微分同胚和最優傳輸映射的複合;保體積微分同胚是無窮維的。

圖5. 兩個滿足保測度條件的映射,彼此相差一個保體積微分同胚。

從理論上講,如果我們兩次訓練GAN網路,其生成器所得到的映射之間相差一個保體積微分同胚。保體積微分同胚群內有一個自然的黎曼度量:我們在保體積微分同胚群內構造一條路徑,

,

連接著兩個同胚,。這條路徑的長度可以計算

,

兩個保體積微分同胚之間的距離定義為連接它們的所有路徑長度中最短者。用這個度量,我們可以定量測量兩次訓練結果的內在差異程度。保體積微分同胚群的度量幾何(無窮維微分幾何)在視覺領域和醫學圖像領域被作為形狀空間的一種理論工具。

小結

通過以上討論,我們看到如果用一個深度學習的網路來逼近一個映射,解空間只有一個映射;如果來逼近一個概率分佈,則解空間為無窮維的保體積微分同胚群。因此,用深度學習網路來逼近一個概率分佈要比逼近一個映射、函數容易得多。這或許可以用來解釋如下的現象:基於老顧以往的經驗,我們用神經網路來求解非線性偏微分方程,要比用神經網路給圖像分類困難,因為前者需要精確逼近泛函空間中的可逆映射,而後者需要逼近圖像空間中的概率分佈。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示