哥倫比亞大學副教授翁春華：大量的醫療資料不正確、不完整並且不可用

雷鋒網消息，近日，由HC3i中國數字醫療網、中關村移動互聯網產業聯盟移動醫療專委會主辦的《2017中美智慧醫療大資料峰會》在北京召開，眾多專家出席探討了智慧醫療大資料存在的問題。

其中哥倫比亞大學醫療資訊學系副教授翁春華以“雲計算和大資料帶來了很好的機會，但擁抱的同時也應該知道資料可能存在的局限性”開始了她的演講，她指出醫療資料現狀令人擔憂。

據翁春華副教授介紹，醫療大資料存在的問題有資料品質不高、資料不完整、資訊不具體、資料重複、資料分佈不均與、資訊不集中等。

以下是其演講內容，雷鋒網做了精簡編輯。

資料不正確

醫院常用的疾病分類標準是ICD9/10，診斷資訊最常見的問題是細微性不夠。 ICD的資訊本來都是統計出來的，所以真正有意義的深度資訊和表型資訊應該來自于文本或者是其它更有意義的資料類型。

另外， ICD9/10有漏診和過渡診斷的問題。

如果生成的資料是醫生特別忙的時候，他們可能沒有時間把正確的代碼找出來，只是找幾個特別有用的或可以代表病人疾病的資料，漏掉其它非主要的疾病。如果診斷資訊不是醫生生成，而是專門人員生成，他們可能會漏掉一些經濟價值不高的資訊。

我們有一次做研究尋找高血壓病人，讓他們參與有關高血壓的臨床測試，結果我們發現所有病人都沒有關於高血壓的ICD9/10資料，醫生說因為所有人都有高血壓，所以懶得把資訊放在病例裡，病人患其它疾病時才會把資訊放在病例裡。可以看到，電子病例的很多資訊是否記錄是基於記錄人的需要，之後資訊會被用來重用或做其他研究分析，

如果不知道當初記錄資訊時的篩選標準，有可能產生誤導。

還有就是過度診斷的問題，患者的情況不斷變化，有可能以前患有的病現在已經治好了，但這些資訊還繼續留在那裡，當你拿到電子病例的時候，可能以為這個病人還患有這種病。如果基於這些資訊分析的話，有可能會被誤導。

資料不完整

衡量資料是否完整有4個維度，分別是：有多少醫療事件會被記錄；資料類型有多少；同一資料類型是否有完整的資料收集結果；是否有具體的資料值。

長老醫院有450萬病人的電子病歷記錄，可以說資料是非常龐大的，但如果用這四個維度衡量一下，結果讓人大吃一驚。

我們的實驗中納入了390萬個病人資訊，

只有一半左右的病例滿足其中一種完整性標準；1/4滿足更嚴格的資料完整性要求，比如其文本資訊和來訪時間記錄吻合或有多個來訪記錄等；僅有小部分有充分資訊或有研究價值；只有0.6%的病歷完全符合4種資料完整性定義。

在此之前，我們樂觀地認為有海量資料，可以做很多事情。但分析之後，我們才知道在用資料之前衡量一下資料能做什麼非常重要。

資料不可用

資料的重複性嚴重影響資料採擷的演算法結果解釋。病人疾病進展記錄中54%是重複的，出院記錄的30.7%和登記記錄完全一樣。電子病例中有很多沒有價值、不產生新資訊的資料，這些資料分析影響特別大，帶來偏見和噪音，降低資料的可用價值，其實其中很多資訊根本沒用。

大家都繼續粘貼和複製，更加加大了資料的不一致性。如果需要使用要尋找真實的資訊和資訊來源，但這個過程很困難。如果欲根據其中資料概念的頻率瞭解概念和疾病的相關性，不能直接用，因為頻率受重複性的影響，很多概念是通過拷貝生成的。