AI醫療開創性研究：深度學習進行病變檢索和匹配（31 PPT）

新智元專欄

【新智元導讀】美國國立衛生研究院（NIH）的研究人員通過創建基於真實放射學影像的大型資料集，進行病變檢索和匹配的研究。

本文是相關研究在約翰霍普金斯大學 Sol Goldman國際會議上的演講整理，該研究具有創新性的科學價值和臨床價值。

論文地址：

http://www.cs.jhu.edu/~lelu/publication/DeepLesionGraph_CVPR2018_camera_ready.pdf

本文介紹了美國國立衛生研究院（NIH）最新的一篇CVPR論文“Deep Lesion Graphs in the Wild: Relationship Learning and Organization of Significant Radiology Image Findings in a Diverse Large-scale Lesion Database”（深度病變圖：在不同的大規模病變資料庫中，重要放射學圖像發現的關係學習和組織），

主要作者是閆柯和王瀟崧等研究人員。

對於精准癌症影像診斷和治療方案的選取，基於內容的retrieval和instance-level相似性的描述是很重要的。人類的癌症有很嚴重的長尾現象，並不是簡單的分類或者regression; mapping X to Y就能很好解決，所以癌症的治療和診斷本質上最重要的是個性化（personalization）。

當有一個新的病人，醫生最想知道的是在以前已經治療過的病人裡面有沒有誰跟他是相似的。如果能夠找出相似的病人，而且知道這些病人的治療方案以及治療結果，醫生就可以更有針對性地來設計治療方案。而且通過對相似病人的建模，可以知道每種治療方案的風險性以及預後效果。

雖然每個大醫院都存了上百萬甚至上千萬的病人資料，但是目前沒有很好的辦法來做相似性病人的檢索。這篇文章的意義是以腫瘤圖像（tumor image instance）為例子，打通了一個做這個方向的技術模型。該模型可以允許一個新的腫瘤圖像在以前上萬的腫瘤圖像中檢索相似的、而且又比較完整的tumor similarity graph，這對臨床工作有很大的幫助。

這方面的工作以前非常少，因此這篇文章是比較有前瞻意義的。

該研究的資料涉及4000多個病人的一萬多個醫學圖像。既使在這個資料尺度下，因為計算能力的問題，人是很難做什麼的。

計算醫學本質上是為了去獲取臨床醫生想要，需要但自己又沒辦法做到的東西。有的病人會問到大醫生如果採取了A治療方案，預後結果會怎麼樣，生存率有多高？現在都是基於經驗去猜的，也不能定量的計算。這篇文章就是一個很好的例子，來逐步解決這個定量精准醫療的問題。相比之下，大家比較熟悉的肺節節檢測問題，是屬於另外一類的問題，本來就是醫生也可以做，計算的目標是使用深度學習來做輔助診斷，

主要以提高醫生效率為目的。

這篇文章裡面用到了32000多個醫生測量過的significant clinical findings,，這些測量結果是放在醫院PACS/RIS放射學資料庫裡面作為定量的references。我們的演算法通過pair wise similarity graph可以針對圖像分類，包括 intra-patient matching（在同一個病人的多次影像studies中，自動的把以前測量過的同一個腫瘤影像連起來）；並且允許跨病人的、基於圖像相似性的檢索（inter-patient similarity retrieval）。

背景

包含多樣化的圖像和密集注釋的大規模資料集對於電腦視覺和醫學圖像研究都很重要

眾包模式可以用於注釋電腦視覺資料集，但醫學圖像（MI）需要專業知識和培訓

通過Deep Learning挖掘互聯網圖像可用於電腦視覺以獲取自動注釋;

幸運的是，像電腦視覺中的網路資料一樣，大量資料來源以圖像存檔和通信系統（PACS / RIS）的形式存在。

那麼，我們可以挖掘“非結構化但非常豐富的”PACS嗎？

放射科醫師在日常工作中可能會定期對放射學影像的某些顯著的異常或“病變”進行標記和測量

多年來收集並存儲在醫院的PACS / RIS中

有時被稱為“bookmarks”

用於評估患者的狀況或治療反應

“DeepLesion”資料集：

這些資料從NIH的PACS裡的bookmarks挖掘而來

問題定義

DeepLesion中的病變基本未排序，並且缺乏語義標籤，例如肺結節，縱隔淋巴結

我們的目標是：通過“自動Instance-level的相似性建模和拓撲發現挖掘”，瞭解和組織大量的病變或腫瘤學發現

1. 發現他們的類型和位置

2. 從不同患者群體中發現相似的病變，即基於內容的檢索

3. 跟蹤同一患者幾次縱向研究中的相同病變，即多次研究中的病變實例匹配或追蹤

相關工作：

病變檢索

病變匹配

監督提示（I）：病變類型

我們隨機選擇30％病灶並手動標記為8種類型：肺，腹部，縱隔，肝，骨盆，軟組織，腎和骨

病變的粗糙屬性

監督提示（II）：相對身體位置

在DeepLesion中，某些CT體積放在身體的一部分上，例如僅顯示左半身

SSBR在罕見的身體部位表現不佳，這些部位在訓練組中的頻率較低，例如頭部和腿部

監督提示（III）：病灶大小

病變直徑的長軸和短軸的長度

已由放射科醫師進行注釋和測量

範圍從0.2到343毫米，中位數為15.6毫米

使用順序採樣構建Triplet Network

圖3第4行有標籤雜訊，病變D與A～C（軟組織與骨盆）的類型不同，

網路架構

主幹：VGG-16

Multi-scale, multi-crop

輸出：對於每個病變實例，輸出是一個1408D特徵嵌入向量

病變組織：檢索和匹配

基於內容的Inter-patient的檢索：找到最近鄰

Intra-patient 的病變匹配：基於圖形的edge pruning

實現細節：圖像預處理

實現細節：訓練計畫

位置和大小的每個維度的最大值歸一化為1

每個mini-batch 24個five-instance序列

學習率為0.002的SGD

為了訓練SSBR，我們使用了來自DeepLesion的420名受試者的800個隨機未標記的CT volumes

實驗

DeepLesion的視覺化：將病灶密集連接的超圖投影到2D圖（t-SNE）中

散點圖的X軸和Y軸對應於每個病變相對身體位置的X和Z座標

實驗：病變檢索

多尺度的深部病變外觀向量，通過Triplet Network對病灶類型、位置和大小進行編碼

分析和發現

當位置和大小作為監督提示時，網路在病變類型檢索方面表現最佳; 甚至比只使用病變類型作為提示時更好。

位置和大小提供了學習病變相似性嵌入的重要補充資訊

僅使用 coarse-scale 特徵（conv5，conv4）時， location稍好，因為location主要依賴更高級的上下文資訊

融合 fine-level特徵（conv3，conv2）可顯著提高類型和大小預測的準確性

反覆運算病灶特徵/類型細化也有幫助！

實驗：分類

最容易混淆的類型是縱隔/肺部病變，以及腹部/肝臟/腎臟病變，因為其中一些在外觀和位置上都相似。

實驗：病變匹配

將DeepLesion中的103名患者的1313個病變手動分成593個組進行評估

每組1-11個病變

true positive decision將同一實例的兩個病變分配給同一組， false positive decision將兩個不同實例的病變分配給同一組

定量病變匹配的精度非常高！

縱向病變匹配

結論

我們提供了一個大型、全面的資料集DeepLesion，其中包括從PACS挖掘的重要放射影像的findings

可用於多種類別的病變檢測，檢索，分類，分割......，這是開創性的研究

利用一個triplet network學習Lesion Graph Embedding，以對類型、位置和大小的相似關係進行建模

所需的唯一手動工作是某些種子圖像的類別標籤

非參數的深度放射學實例/知識表示

結果：（a）基於內容的inter-patient病變檢索和（b） intra-patient的定性和定量的病變匹配

【加入社群】

新智元 AI 技術 + 產業社群招募中，歡迎對 AI 技術 + 產業落地感興趣的同學，加小助手微信號: aiera2015_1 入群；通過審核後我們將邀請進群，加入社群後務必修改群備註（姓名 - 公司 - 職位；專業群審核較嚴，敬請諒解）。

背景