AI醫療來襲，患者、機構、資料科學家分別有哪些新機會？

原作：Jeremy Howard

安妮編譯自 Hacker Noon

量子位出品 | 公眾號 QbitAI

本文作者Jeremy Howard，澳大利亞資料科學家、企業家。

他是fast.ai創始人、機器學習醫療解決方案公司Enlitic創始人及CEO、創業公司FastMail及Optimal Decisions Group的CEO。

此外，出生於1973年的Howard是奇點大學最年輕的教員，也是世界經濟論壇的全球青年領袖。他曾連續兩年在Kaggle中奪冠，之後擔任Kaggle的主席及首席科學家。

這篇文章中， Howard認真談了談AI對整個醫療行業的各方從業者的影響。精彩，且不容錯過。

Howard在TED上的演講

貫穿整個人類史，醫學一直是門自帶藝術氣質的學科。相較于建立一套標準的診斷治療流程，醫學的重點一直在每個醫生的技巧和經驗上。

雖然近年來，實證醫學（EBM）和精准醫學的先驅已經向醫療領域注入資料驅動的嚴謹實踐，上面的情景已經改變。但是，大多數醫療觀念還是西元前希波克拉底學說的延伸。

古希臘西元前醫師希波克拉底雕像，他建立了健康和疾病的平衡學說

那目前的醫療現狀如何呢？事實上，世界人口稠密地區的實際醫生數量不足需求十分之一，需要百年時間才能填補。不僅醫務人員缺口大，並且醫療水準有限。誤診、延診和過度診斷造成數百萬病患死亡和數百億資金的流失。

好在我們有科技。

技術給醫護人員和病患提供所需的準確資訊，偏遠地區的醫務工作者看到世界各地的醫療研究，讓發達地區的醫生診斷更高效準確，在醫療診斷中更方便地瞭解病人及親屬。

這股醫療科技的中堅力量就是人工智慧。尤其是深度學習，已經成為一種強有力的檢測工具，在醫學影像領域表現驚人。比如穀歌的視網膜病變診斷系統、斯坦福的AI診斷皮膚病演算法、Enlitic將深度學習運用到癌症等結節檢測裡。

放眼整個AI醫療佈局，患者、醫務工作者和資料科學家都面臨著怎樣的機遇和挑戰？未來的醫療形勢怎樣？那就接著往下看——

挑戰

標記過的歷史資料

有種廣為流傳的普遍說法是，深度學習演算法需要大量資料才有效，

這種說法不一定是對的。舉例來說， Enlitic的肺癌演算法只掃描了1000多名癌症患者的資料，儘管資料集很小，但它具有有效建模的關鍵特徵：

首先，資料集中包含了每個病人至少三年的年度掃描資料，在構建診斷演算法時，病情隨時間的變化情況至關重要。

其次，資料中包含了放射科醫生提供的診斷意見，裡面包含肺部結節的位置，演算法可以從中快速找到重要資訊。

最後，資料集中包含確診肺癌三年後每個病人的康復情況，能夠說明患者存活率等資訊，説明構建診斷系統。

這個專案無法顯示的資訊也可能很實用，比如醫生的治療建議。因為資料集中不包含對病人的治療干預及病患反應等縱向資料，因此構建的演算法只對診斷有效，

不牽扯治療計畫。

目前，傳統檢測方法仍無法發現肺部40毫米大小的結節，因此肺癌患者死亡率高達90%。驚喜的是， Enlitic開發的系統能發現小於5毫米的結節，使患者的生存率能增加10倍。

圖中箭頭所指為肺結節（Lung Nodule）

目前，這些醫療資料資訊還零散地分佈在多個機構中的不同部門中。不知我們還要多久才能實現跨地區醫療記錄整合，可以將多年內所有的檢測、診斷及治療措施全部包含在裡面。

法律保守主義

不管資料是集中獲取還是多來源拼湊起來的，一般來說，資料持有機構對將資料共用給資料科學家還非常謹慎。據司法人員透露，洩露病患隱私可能會終結資料科學家的職業生涯，還會連帶機構損失數百萬美元。

那麼，病人是如何看待分享私人資料的呢？在被問及如果將來可能幫到他人，是否願意分享自己的資料時，大多數病人欣然同意——特別是聽說可能會為自己將來的治療帶來更好選擇時。

患者的新機遇

病人可控的資料

患者有個很清晰的機遇可以選擇：即從不同管道收集自己的醫療資料，包括可穿戴設備、自我報告等。資料科學家和機構可以讓病人自己選擇將資料分享給哪些資料科學家或專案，給他們一個安全的資料環境。作為回報，他們可以為患者提供：

提前享受到醫學最新突破的治療

財物補貼

資料怎樣被利用説明其他患者的資訊

這是患有罕見或無法治療疾病的患者家屬的新機會：聯合其他情況相似的病人提供各種資料。越多病人加入資料共用，越可能儘快發現疾病的關鍵資訊。

區塊鏈

不同資料的重要性不能一概而論。

罕見疾病患者的資料對治療至關重要，多年長期觀測的資料比短時間內的資料更具價值。這就會帶來一些潛在問題，比如有人想通過偽造資料獲得報酬。

區塊鏈技術能讓醫療資料記錄變得清晰可查找。根據這一記錄，資料提供者可根據資料實用程度獲得獎勵。因此，病人提供的資料越完整、準確、相關，報酬就越高。

這也為機構提供了一些有趣的機會。獲得病人許可的機構可為研究人員提供完整的資料集，從中獲得財物或技術回報。從長期看，病人可以授權機構通過區塊鏈將資料傳遞給資料科學家。

資料科學家的機會

資料科學家都希望拿資料做些有意義的事，但只有少數人有這樣的機會，大部分對口工作集中在廣告技術、對沖基金交易和產品推薦領域。

資料科學家的挑戰通常包括尋找資料獲取途徑、瞭解待解決問題、提供可實現的解決方法。

為了讓資料更實用，他們需要進行一系列處理，在實踐中這些步驟通常重複多次：

資料清理

探索性資料分析（EDA）

創建驗證集

構建模型

分析並檢驗模型

為了完成上述步驟，資料科學家需要一個豐富的分析環境，在裡面可以選擇他們的工具、庫、視覺化解決方案。目前，大多數人用的是R語言或Python。

通過提供預裝資料和環境，資料科學家能快速找到有意義的資料。也可能是多人獨立處理一個問題，根據工作效果分得獎勵。

AI醫療來襲，我們應該怎麼做

資料收集

我們需要賦予每個病人收集和維護個人醫療資料的能力，包括：

實驗室的檢測和影像學研究

診斷

用藥處方

非處方藥和補充劑

其他醫療干預措施

飲食和鍛煉記錄

家族病史（理想情況下，自動通過連結家庭成員自動維護這些資料）

自我報告進展，比如精力水準、幸福感等。

基因組學和其他測試

這意味著患者資料也可以從醫療服務提供者那下載。不論是來自使用者還是服務提供者的資料，都需要在計畫開始時下載一次，之後可以用API定期追蹤患者情況，或者用各種可穿戴設備的APP獲取他們的資料了。

資料分享

每個病患都需要處理他們收到的資料請求，請求一旦增多，病人處理每個單獨請求也會很麻煩。在這種情況下，我們可以為病人設置接收規則，自動判斷接受、拒絕還是需要人工干預。

每份資料都需用能溯源的方式打上來源標籤。當然，一些醫療資料存儲量很大，它不一定被存儲在病人的設備上。

一旦患者允許專案訪問他們的資料，這些資料就需要對研究者公開。研究人員需要的分析環境要足夠豐富。這將向他們展示問題的全面資訊，並展示如何訪問專案資料。

巨大的機會

讓病人控制資料，讓資料科學家有地方施展拳腳是個不錯的想法。

還有一個更大的機會，即當模型可被持續更新時時，將所有的模型組合在一起。每個資料科學家的特徵工程步驟可被保存，並提供給後續研究使用(當被覆用時，他們將得到獎勵)。此外，他們預先訓練的模型啟動函數可被自動引入新模型預測能力是否提升。

讓新資料持續提升現有模型需要所有資料來源的含義和格式相同。雖然這很複雜，但有經驗的資料產品經理需要有先前經驗預先確定資料來源格式或語義的更改，並且持續測試模型。

通過複用預先訓練的模型，我們從組合資料集中受益，且沒有任何邏輯或隱私問題。

這也意味著我們也可以高效攻破資料量稀少的罕見疾病和兒科疾病。在這些情況中，可用預訓練模型分析資料，只需要很少的參數就能組合它們。

隨著醫療行業的進步，這種收集和分析資料的方法將帶來新的見解，並為醫務工作者和患者提供所需資訊的清晰集合。

— 完 —

誠摯招聘