本文介紹了拓撲資料分析(TDA)的基本原理, 給出了案例展示, 並指出該方法可以高效地進行視覺化分析, 有望為人工智慧黑箱提供可解釋性。 近日, 中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法, 量子版本的 TDA 能夠實現對經典最優 TDA 演算法的指數級加速。
機器學習和人工智慧都是「黑箱」技術——這是使用機器學習、人工智慧進行資料研究遭受的批評之一。 雖然它們能自動提供有用的答案, 但是卻不能給人類提供可解讀的輸出。 因此, 我們往往不能瞭解它們在做什麼, 又是如何做到的。
Ayasdi 對這個問題提出了解決方法,
首先介紹一下該解釋方法的工作原理。
假設我們有一個資料集, 並且在其中已經辨別出了一些子組。 這些子組可能是資料的一個組成部分(例如, 某種疾病有許多不同的形式, 比如炎症性腸病, 或該資料含有一個倖存者/非倖存者的資訊), 或者說, 這些子組是由行集合的某拓撲模型通過分割或熱點分析創建的。
如果選擇其中的兩個子組, Ayasdi 技術允許研究者根據他們的 Kolmogorov-Smirnov 分數(KS 分數)生成特徵清單。 每個特徵有兩個分佈——每個子組各有一個分佈。 KS 分數衡量兩個子組之間的差異。 與本結構相關的也就是標準統計意義上的 P 值。
其解釋是, 排列在第一位的變數是最能區分兩個子組的變數, 而其餘的特徵是按其區分能力排列的。 因此, 解釋機制的輸出是一個有序的特徵表。 通常, 通過查看列表能獲得有用的解釋, 即, 是何因素導致了不同子組之間的區別。
然而, 該列表解釋起來往往很複雜。 就像 Google 搜索後會得到一長串回復一樣, 人們很可能會發現列表頂部分佈不成比例, 較低的回應又不為人們所關注。 我們怎樣才能進一步提高這些「比較列表」的透明度和可理解性呢?
重要的是, 要記住, Ayasdi 構造的拓撲模型假定給出了一個資料矩陣, 以及資料集行的差異性或距離函數。 通常, 該距離函數是歐幾裡得距離, 但是也可以選擇其他距離函數, 例如相關距離、各種角度距離等。
在完成這個操作之後, 可以為 M^T 矩陣的行集合(即原始矩陣 M 的列)構建拓撲模型。 在集合中, 人們可以選擇不同的距離函數。 我們不會深入討論這一點, 但總而言之, 對任何資料矩陣行的通用可選項對於這個新矩陣也適用。
現在, 假設我們有一個資料矩陣 M, 以及在上述資料集中的一個子組 G。 該子組可能通過先驗資訊得來, 也可能通過在 M 矩陣中行的拓撲模型分割得來。 對於矩陣 M 中的每一列 c_i(即轉置矩陣 M^T 的每一行), 我們現在可以計算子組 G 中每一行的均值, 即 c_i 的平均值。
我們將把它記為 fi,G。 當這個數字包含 i 時,
請看下例。
荷蘭癌症研究所(NKI)構建了一個資料集, 其中包括來自 272 名乳腺癌患者採樣的微陣列分析。 本案例中的微陣列分析提供了為研究篩選的一組基因中每個基因的 mRNA 表達水準。 從這些基因中, 我們選擇了 1500 個表達水準最高的基因。 我們得到一個 272 x 1500 的矩陣, 其中 1500 列對應於資料集中具有最大方差的 1500 個基因, 272 行對應於樣本總量。對於這個資料集,資料矩陣中行集合的拓撲分析已經在 [1] 和 [2] 中進行了。
我們的拓撲模型展示如下。
上圖表明,拓撲模型包括一個很長的「樹幹」部分,然後分裂成兩個「小枝」。在資料集中,存在一個名為 eventdeath 的二進位變數。如果患者在研究期間存活,則 eventdeath = 0;如果患者死亡則 eventdeath = 1。令人感興趣的是,患者存活情況與圖的結構相對應。一種方法是通過變數 eventdeath 的平均值進行著色。其結果如下所示。
我們可以看到,上面的「小枝」呈深藍色。這表明 eventdeath 變數值低,實際上其值為零——這意味著每個患者都存活了下來。然而,下面「小枝」的存活率差得多,尖端節點幾乎完全由無法存活的患者組成。我們希望理解這種現象,看看資料中的哪些特徵與「小枝」的產生有關,從而瞭解變數 eventdeath 的迥異行為。為此,我們可以從拓撲模型中選擇多種不同的子組。
在上圖中,A 組為高生存率組,B 組為低生存率組,C 組可以表徵為與其他兩組差異最大的組(根據組間距離進行確定)。如上所述,基於這三個組,我們可以在 1500 個特徵上創建 3 個函數。
如果我們建立一組特徵的拓撲模型,我們可以用每個函數的平均值來給它著色。下面的三張圖片展示了其結果。
在比較 A 組和 B 組著色情況時,我們發現其差異十分顯著。A 組著色後,某個區域呈亮紅色,而 B 組著色後相應區域呈亮藍色。結果可見下圖。左側的模型是 A 組著色,右側模型是 B 組著色。
組 I 和組 II 的顏色明顯不同。組 I 在 A 組中主要為紅色,而在 B 組中主要為藍色(小固相區域除外)。組 II 恰好相反,在 A 組中為藍色,在 B 組中為紅色。這些組可能與高雌激素受體表達有關,其中在組 I 中呈正相關,在組 II 中呈負相關。眾所周知,雌激素受體表達是乳腺癌存活與否的「強信號」。如果我們比較所有三組(如下圖):
我們也可以看到,C 組似乎是 B 組的一個「較弱」形式,其中右上角的藍色區域面積較小,下面區域的紅色較弱。在左側的「島」上,C 組也顯示出比 A 、B 組更強的紅色著色。理解哪些基因參與了 A、B、C 三組右上角的強紅色塊將是非常有意思的。此外,研究哪些基因參與了左側「島」的表達也很有趣。瞭解這些基因組需要使用各種基於網路的生物學通路分析的工具。
總而言之,我們已經展示了如何對資料集中的特徵空間使用拓撲建模,而不是利用行集合直接從資料集尋找洞察。具有超過 4 個特徵的資料集不能直接使用標準圖形技術直觀地理解,但是具有成百上千個特徵的資料集通過這種方式理解起來卻很容易。該方法能直接識別行為一致的特徵組,這通常在基因組和更普遍的生物學資料的分析中存在。
參考文獻
[1] M. Nicolau, A. Levine, and G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Proc. Natl. Acad. Sci., vol. 108, no. 17, 7265-7270, (2011).
[2] P. Lum, G. Singh, A. Lehman, T. Ishkhanov, M. Vejdemo-Johansson, M. Alagappan, and G. Carlsson, Extracting insights from the shape of complex data using topology, Scientific Reports 3, Article number 1236, (2013).
272 行對應於樣本總量。對於這個資料集,資料矩陣中行集合的拓撲分析已經在 [1] 和 [2] 中進行了。我們的拓撲模型展示如下。
上圖表明,拓撲模型包括一個很長的「樹幹」部分,然後分裂成兩個「小枝」。在資料集中,存在一個名為 eventdeath 的二進位變數。如果患者在研究期間存活,則 eventdeath = 0;如果患者死亡則 eventdeath = 1。令人感興趣的是,患者存活情況與圖的結構相對應。一種方法是通過變數 eventdeath 的平均值進行著色。其結果如下所示。
我們可以看到,上面的「小枝」呈深藍色。這表明 eventdeath 變數值低,實際上其值為零——這意味著每個患者都存活了下來。然而,下面「小枝」的存活率差得多,尖端節點幾乎完全由無法存活的患者組成。我們希望理解這種現象,看看資料中的哪些特徵與「小枝」的產生有關,從而瞭解變數 eventdeath 的迥異行為。為此,我們可以從拓撲模型中選擇多種不同的子組。
在上圖中,A 組為高生存率組,B 組為低生存率組,C 組可以表徵為與其他兩組差異最大的組(根據組間距離進行確定)。如上所述,基於這三個組,我們可以在 1500 個特徵上創建 3 個函數。
如果我們建立一組特徵的拓撲模型,我們可以用每個函數的平均值來給它著色。下面的三張圖片展示了其結果。
在比較 A 組和 B 組著色情況時,我們發現其差異十分顯著。A 組著色後,某個區域呈亮紅色,而 B 組著色後相應區域呈亮藍色。結果可見下圖。左側的模型是 A 組著色,右側模型是 B 組著色。
組 I 和組 II 的顏色明顯不同。組 I 在 A 組中主要為紅色,而在 B 組中主要為藍色(小固相區域除外)。組 II 恰好相反,在 A 組中為藍色,在 B 組中為紅色。這些組可能與高雌激素受體表達有關,其中在組 I 中呈正相關,在組 II 中呈負相關。眾所周知,雌激素受體表達是乳腺癌存活與否的「強信號」。如果我們比較所有三組(如下圖):
我們也可以看到,C 組似乎是 B 組的一個「較弱」形式,其中右上角的藍色區域面積較小,下面區域的紅色較弱。在左側的「島」上,C 組也顯示出比 A 、B 組更強的紅色著色。理解哪些基因參與了 A、B、C 三組右上角的強紅色塊將是非常有意思的。此外,研究哪些基因參與了左側「島」的表達也很有趣。瞭解這些基因組需要使用各種基於網路的生物學通路分析的工具。
總而言之,我們已經展示了如何對資料集中的特徵空間使用拓撲建模,而不是利用行集合直接從資料集尋找洞察。具有超過 4 個特徵的資料集不能直接使用標準圖形技術直觀地理解,但是具有成百上千個特徵的資料集通過這種方式理解起來卻很容易。該方法能直接識別行為一致的特徵組,這通常在基因組和更普遍的生物學資料的分析中存在。
參考文獻
[1] M. Nicolau, A. Levine, and G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Proc. Natl. Acad. Sci., vol. 108, no. 17, 7265-7270, (2011).
[2] P. Lum, G. Singh, A. Lehman, T. Ishkhanov, M. Vejdemo-Johansson, M. Alagappan, and G. Carlsson, Extracting insights from the shape of complex data using topology, Scientific Reports 3, Article number 1236, (2013).