「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光資料集

1新智元報導

胸部X光檢查是最常見而且最具成本效益的醫學影像檢查之一。但是，胸部X光檢查的臨床診斷很具挑戰性，有時被認為比胸部CT成像更難診斷。過去一些有前景的工作已經被報導過，特別是最近在結核病（TB）分類方面的深度學習工作。由於只有幾千張圖像被用於學習，在現實世界的醫療中，在胸部X光片的所有資料設置上，實現臨床相關的電腦輔助檢測和診斷（CAD）仍然是非常困難的，甚至是不可能的。

Openi 是迄今最大的公共胸部X射線資料集，由於只有4143張正面視圖的胸部X光片，用於胸部疾病識別的深度神經網路的性能受到嚴重限制。

在這個資料庫中， NIH提供了近期工作中使用資料集的一個增強版本（增加了6個疾病類別和更多的圖像），

規模大約是Openi的正面胸部X光片數量的27倍。所有資料集是從美國國家衛生臨床中心的臨床PACS資料庫中提取出來的，其中包含了醫院所有正面胸部X光片的約60%。

參與這項工作的NIH研究員呂樂博士告訴新智元，胸部X光圖像去除病人敏感資訊工作量非常大, 類比於在Google Street View裡找到人臉和汽車牌照並把它模糊化。

據悉，發佈這些資料前， NIH的研究人員通過人工和機器將其仔細審查了至少7遍，最後NIH內部還找了十幾位博士生和醫生，將11萬張圖像肉眼過了兩遍。這都是為了讓全世界的研究人員更好的工作，就像呂樂博士說的那樣， “希望大家能夠喜歡並enjoy!”

NIH研究人員預期這個資料集相比以前的胸部X光片資料集更能夠代表真實的患者群體分佈和現實中的臨床診斷挑戰。

這個資料集的規模，從圖像總數和胸腔疾病頻率來看，也將會更好地促進深度神經網路的訓練。

詳細資訊：3萬+患者， 11萬+圖像， 14類常見病理，以及更多

ChestX-ray資料集包含30,805名患者的112,120張正面視圖的X射線圖像，

以及利用NLP從相關放射學報告挖掘的14類疾病的圖像標籤（每個圖像可以有多個標籤）。

資料集含有14類常見的胸部病理，包括肺不張、變實、浸潤、氣胸、水腫、肺氣腫、纖維變性、積液、肺炎、胸膜增厚、心臟肥大、結節、腫塊和疝氣，這是王瀟崧博士和Yifan Peng、呂樂博士等人CVPR 2017論文中列出的8中常見疾病的擴充（詳見下面ArXiv論文）。

CVPR-17 論文及地址：Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. IEEE CVPR 2017（http://openaccess.thecvf.com/content_cvpr_2017/papers/Wang_ChestX-ray8_Hospital-Scale_Chest_CVPR_2017_paper.pdf）

ArXiv論文，是CVPR-17論文的擴展，附錄中含有14種疾病分佈和資料集描述：https://arxiv.org/pdf/1705.02315.pdf

Box圖像獲取位址: https://nihcc.app.box.com/v/ChestXray-NIHCC

需要注意的是，由於許多原因，原始的放射學報告（與這些胸部X射線研究相關）並不公開分享。文本挖掘疾病標籤的準確率預計＞90%。

內容：

112120張正面視圖的胸部X片圖像， PNG格式，解析度為1024 * 1024（在images資料夾）

所有圖像的中繼資料（Data_Entry_2016.csv）：圖像索引，標籤查找，跟蹤＃，患者ID，患者年齡，患者性別，以及圖像位置。

約1000張圖像的邊框（BBox_List_2016.csv）：圖像索引，標籤查找，Bbox [x，y，w，h]。[x y]是每個box的左上角的座標。[w h]表示每個box的寬和高。

局限：

圖像標籤是利用NLP提取的，因此會出現一些錯誤的標籤，但NLP標籤的準確度估計為>90%。

疾病區域的邊界框（bounding boxes）數量非常有限。

胸部X線放射學報告預計不會被公開分享。我們鼓勵使用這個公共資料集的研究者和研究機構在以後的研究中共用“更新”的圖像標籤和/或新的邊界盒，可能這些是通過人工注釋的。

A：14類疾病的共同發生統計資料：

A. 2 chest X-ray資料集中14種胸部疾病的共生矩陣（co-occurrence matrix）

B. 常見胸部疾病的8個視覺化實例（略）

C.一個樣本條目（請注意，原始的胸部x射線放射學報告是不公開分享的）

D.使用弱監督深度神經網路的兩個疾病定位樣本

構建真正大規模醫學圖像資料集

以下是呂樂博士今年5月GTC演講《構建真正大規模醫學圖像資料集：深度標籤發現和開放端識別》的部分PPT，從中可以瞭解到本次NIH公佈的大規模胸部X光資料集背後的具體工作。

在診斷中整合機器的決策對人類醫生而言很難，好的醫生不願意用，不好的醫生不知道怎麼用。因此，必須要有更好的人機協作診斷過程。尤其是在精准醫療中，需要新的成像生物標記來更好的協助人類醫生做出精准的判斷，還需要具體到患者級別的相似度抽取系統，讓個性化診療成為可能。

與此相關的有三大關鍵，一是電腦輔助檢測和診斷，二是在醫療圖像分析中的語義分割，三是在真正大規模資料集上的深度資訊挖掘（包括文本和圖像）。

在攻克放射醫學問題的道路上，可用醫學圖像資料集稀少成了一個重大問題。而研究人員也一直致力於提供更好的解決方案。

王瀟崧博士、Yifan Peng、、Hoo-chang Shin、呂樂博士等人一直在從事相關的研究。

下面這篇CVPR-17論文就是本次NIH公佈的X光圖像資料集的基礎。

在現有成果的基礎上，我們也能看到未來的挑戰和研究方向：提升圖像標記的精度，提升多標籤分類的精度，以及提升定位的精度。

挑戰雖多，成果更大，也歡迎你的加入！

全部64頁PPT下載：http://on-demand.gputechconf.com/gtc/2017/presentation/S7595-le-lu-building-truly-large-scale-medical-image-datatbase.pdf

【掃一掃或點擊閱讀原文搶購五折“早鳥票”】

患者年齡，患者性別，以及圖像位置。