您的位置:首頁>科技>正文

拓撲資料分析TDA,有望打破人工智慧黑箱的神奇演算法

本文介紹了拓撲資料分析(TDA)的基本原理, 給出了案例展示, 並指出該方法可以高效地進行視覺化分析, 有望為人工智慧黑箱提供可解釋性。 近日, 中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法, 量子版本的 TDA 能夠實現對經典最優 TDA 演算法的指數級加速。

機器學習和人工智慧都是「黑箱」技術——這是使用機器學習、人工智慧進行資料研究遭受的批評之一。 雖然它們能自動提供有用的答案, 但是卻不能給人類提供可解讀的輸出。 因此, 我們往往不能瞭解它們在做什麼, 又是如何做到的。

Ayasdi 對這個問題提出了解決方法,

其中利用了該公司的核心技術——拓撲資料分析(TDA)。 該方法能夠提供強有力的、具有詳細解釋的輸出。 然而, 在這篇文章中, 我們將把工作擴展到目前 TDA 的「比較」方法之外。 當前的方法使用的拓撲網路由資料集的資料點(行)構建。 在這項新的工作中, Ayasdi 將特徵(列)也融合在網路當中, 據此展示了一個改進的、易解釋的結果。

首先介紹一下該解釋方法的工作原理。

假設我們有一個資料集, 並且在其中已經辨別出了一些子組。 這些子組可能是資料的一個組成部分(例如, 某種疾病有許多不同的形式, 比如炎症性腸病, 或該資料含有一個倖存者/非倖存者的資訊), 或者說, 這些子組是由行集合的某拓撲模型通過分割或熱點分析創建的。

如果選擇其中的兩個子組, Ayasdi 技術允許研究者根據他們的 Kolmogorov-Smirnov 分數(KS 分數)生成特徵清單。 每個特徵有兩個分佈——每個子組各有一個分佈。 KS 分數衡量兩個子組之間的差異。 與本結構相關的也就是標準統計意義上的 P 值。

其解釋是, 排列在第一位的變數是最能區分兩個子組的變數, 而其餘的特徵是按其區分能力排列的。 因此, 解釋機制的輸出是一個有序的特徵表。 通常, 通過查看列表能獲得有用的解釋, 即, 是何因素導致了不同子組之間的區別。

然而, 該列表解釋起來往往很複雜。 就像 Google 搜索後會得到一長串回復一樣, 人們很可能會發現列表頂部分佈不成比例, 較低的回應又不為人們所關注。 我們怎樣才能進一步提高這些「比較列表」的透明度和可理解性呢?

重要的是, 要記住, Ayasdi 構造的拓撲模型假定給出了一個資料矩陣, 以及資料集行的差異性或距離函數。 通常, 該距離函數是歐幾裡得距離, 但是也可以選擇其他距離函數, 例如相關距離、各種角度距離等。

獲得資料矩陣 M 後, 人們可以將它轉置為一個新的矩陣 M^T。 其中, 初始矩陣的列是轉置矩陣的行, 反之亦然, 如下圖所示。

在完成這個操作之後, 可以為 M^T 矩陣的行集合(即原始矩陣 M 的列)構建拓撲模型。 在集合中, 人們可以選擇不同的距離函數。 我們不會深入討論這一點, 但總而言之, 對任何資料矩陣行的通用可選項對於這個新矩陣也適用。

現在, 假設我們有一個資料矩陣 M, 以及在上述資料集中的一個子組 G。 該子組可能通過先驗資訊得來, 也可能通過在 M 矩陣中行的拓撲模型分割得來。 對於矩陣 M 中的每一列 c_i(即轉置矩陣 M^T 的每一行), 我們現在可以計算子組 G 中每一行的均值, 即 c_i 的平均值。

我們將把它記為 fi,G。 當這個數字包含 i 時,

我們在 M^T 的行集合上獲得一個函數。 因此, 再次重申, M 矩陣中的行的一個子組將在 M^T 的行集合上產生一個函數。 Ayasdi 拓撲模型的功能之一是, 通過對應於節點的行, 能夠利用資料矩陣的行函數的平均值對拓撲模型的節點進行著色。 這對於瞭解資料屬性而言是一個非常有用的方法。 尤其地, 我們現在可以利用 M^T 矩陣的行集合中子組 G 的著色情況, 查看該組的特徵。

請看下例。

荷蘭癌症研究所(NKI)構建了一個資料集, 其中包括來自 272 名乳腺癌患者採樣的微陣列分析。 本案例中的微陣列分析提供了為研究篩選的一組基因中每個基因的 mRNA 表達水準。 從這些基因中, 我們選擇了 1500 個表達水準最高的基因。 我們得到一個 272 x 1500 的矩陣, 其中 1500 列對應於資料集中具有最大方差的 1500 個基因, 272 行對應於樣本總量。對於這個資料集,資料矩陣中行集合的拓撲分析已經在 [1] 和 [2] 中進行了。

我們的拓撲模型展示如下。

上圖表明,拓撲模型包括一個很長的「樹幹」部分,然後分裂成兩個「小枝」。在資料集中,存在一個名為 eventdeath 的二進位變數。如果患者在研究期間存活,則 eventdeath = 0;如果患者死亡則 eventdeath = 1。令人感興趣的是,患者存活情況與圖的結構相對應。一種方法是通過變數 eventdeath 的平均值進行著色。其結果如下所示。

我們可以看到,上面的「小枝」呈深藍色。這表明 eventdeath 變數值低,實際上其值為零——這意味著每個患者都存活了下來。然而,下面「小枝」的存活率差得多,尖端節點幾乎完全由無法存活的患者組成。我們希望理解這種現象,看看資料中的哪些特徵與「小枝」的產生有關,從而瞭解變數 eventdeath 的迥異行為。為此,我們可以從拓撲模型中選擇多種不同的子組。

在上圖中,A 組為高生存率組,B 組為低生存率組,C 組可以表徵為與其他兩組差異最大的組(根據組間距離進行確定)。如上所述,基於這三個組,我們可以在 1500 個特徵上創建 3 個函數。

如果我們建立一組特徵的拓撲模型,我們可以用每個函數的平均值來給它著色。下面的三張圖片展示了其結果。

在比較 A 組和 B 組著色情況時,我們發現其差異十分顯著。A 組著色後,某個區域呈亮紅色,而 B 組著色後相應區域呈亮藍色。結果可見下圖。左側的模型是 A 組著色,右側模型是 B 組著色。

組 I 和組 II 的顏色明顯不同。組 I 在 A 組中主要為紅色,而在 B 組中主要為藍色(小固相區域除外)。組 II 恰好相反,在 A 組中為藍色,在 B 組中為紅色。這些組可能與高雌激素受體表達有關,其中在組 I 中呈正相關,在組 II 中呈負相關。眾所周知,雌激素受體表達是乳腺癌存活與否的「強信號」。如果我們比較所有三組(如下圖):

我們也可以看到,C 組似乎是 B 組的一個「較弱」形式,其中右上角的藍色區域面積較小,下面區域的紅色較弱。在左側的「島」上,C 組也顯示出比 A 、B 組更強的紅色著色。理解哪些基因參與了 A、B、C 三組右上角的強紅色塊將是非常有意思的。此外,研究哪些基因參與了左側「島」的表達也很有趣。瞭解這些基因組需要使用各種基於網路的生物學通路分析的工具。

總而言之,我們已經展示了如何對資料集中的特徵空間使用拓撲建模,而不是利用行集合直接從資料集尋找洞察。具有超過 4 個特徵的資料集不能直接使用標準圖形技術直觀地理解,但是具有成百上千個特徵的資料集通過這種方式理解起來卻很容易。該方法能直接識別行為一致的特徵組,這通常在基因組和更普遍的生物學資料的分析中存在。

參考文獻

[1] M. Nicolau, A. Levine, and G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Proc. Natl. Acad. Sci., vol. 108, no. 17, 7265-7270, (2011).

[2] P. Lum, G. Singh, A. Lehman, T. Ishkhanov, M. Vejdemo-Johansson, M. Alagappan, and G. Carlsson, Extracting insights from the shape of complex data using topology, Scientific Reports 3, Article number 1236, (2013).

272 行對應於樣本總量。對於這個資料集,資料矩陣中行集合的拓撲分析已經在 [1] 和 [2] 中進行了。

我們的拓撲模型展示如下。

上圖表明,拓撲模型包括一個很長的「樹幹」部分,然後分裂成兩個「小枝」。在資料集中,存在一個名為 eventdeath 的二進位變數。如果患者在研究期間存活,則 eventdeath = 0;如果患者死亡則 eventdeath = 1。令人感興趣的是,患者存活情況與圖的結構相對應。一種方法是通過變數 eventdeath 的平均值進行著色。其結果如下所示。

我們可以看到,上面的「小枝」呈深藍色。這表明 eventdeath 變數值低,實際上其值為零——這意味著每個患者都存活了下來。然而,下面「小枝」的存活率差得多,尖端節點幾乎完全由無法存活的患者組成。我們希望理解這種現象,看看資料中的哪些特徵與「小枝」的產生有關,從而瞭解變數 eventdeath 的迥異行為。為此,我們可以從拓撲模型中選擇多種不同的子組。

在上圖中,A 組為高生存率組,B 組為低生存率組,C 組可以表徵為與其他兩組差異最大的組(根據組間距離進行確定)。如上所述,基於這三個組,我們可以在 1500 個特徵上創建 3 個函數。

如果我們建立一組特徵的拓撲模型,我們可以用每個函數的平均值來給它著色。下面的三張圖片展示了其結果。

在比較 A 組和 B 組著色情況時,我們發現其差異十分顯著。A 組著色後,某個區域呈亮紅色,而 B 組著色後相應區域呈亮藍色。結果可見下圖。左側的模型是 A 組著色,右側模型是 B 組著色。

組 I 和組 II 的顏色明顯不同。組 I 在 A 組中主要為紅色,而在 B 組中主要為藍色(小固相區域除外)。組 II 恰好相反,在 A 組中為藍色,在 B 組中為紅色。這些組可能與高雌激素受體表達有關,其中在組 I 中呈正相關,在組 II 中呈負相關。眾所周知,雌激素受體表達是乳腺癌存活與否的「強信號」。如果我們比較所有三組(如下圖):

我們也可以看到,C 組似乎是 B 組的一個「較弱」形式,其中右上角的藍色區域面積較小,下面區域的紅色較弱。在左側的「島」上,C 組也顯示出比 A 、B 組更強的紅色著色。理解哪些基因參與了 A、B、C 三組右上角的強紅色塊將是非常有意思的。此外,研究哪些基因參與了左側「島」的表達也很有趣。瞭解這些基因組需要使用各種基於網路的生物學通路分析的工具。

總而言之,我們已經展示了如何對資料集中的特徵空間使用拓撲建模,而不是利用行集合直接從資料集尋找洞察。具有超過 4 個特徵的資料集不能直接使用標準圖形技術直觀地理解,但是具有成百上千個特徵的資料集通過這種方式理解起來卻很容易。該方法能直接識別行為一致的特徵組,這通常在基因組和更普遍的生物學資料的分析中存在。

參考文獻

[1] M. Nicolau, A. Levine, and G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Proc. Natl. Acad. Sci., vol. 108, no. 17, 7265-7270, (2011).

[2] P. Lum, G. Singh, A. Lehman, T. Ishkhanov, M. Vejdemo-Johansson, M. Alagappan, and G. Carlsson, Extracting insights from the shape of complex data using topology, Scientific Reports 3, Article number 1236, (2013).

Next Article
喜欢就按个赞吧!!!
点击关闭提示