「AI VS人類」醫生水準大PK：人工智慧四勝三平一負絕對領先

時間＼2017-09-29

IEEE Spectrum 日前公佈了一個“記分牌”，顯示了在醫療領域的各個子類中，

AI 和人類醫生誰更佔優勢。用 IEEE Spectrum 的話說，“AI 正在醫療領域對醫生發起挑戰，我們一直在記分”。

這個記分牌顯示——

AI 佔據明顯優勢的是心臟病、中風和自閉症；

AI 佔據一定優勢的是阿茲海默、外科手術；

AI 和人類醫生打個平手的是腦腫瘤、眼科、皮膚癌；

人類醫生佔據明顯優勢的是一般性診斷。

心臟病：與標準預測方法相比，AI系統多預測正確了355 個患者的病情

英國諾丁漢大學的研究人員創建了一個系統，該系統通過掃描患者的常規醫療資料，可以預測10年內哪些患者有心臟病發作或中風的危險。與標準預測方法相比，AI系統多預測正確了355 個患者的情況。

研究者Stephen Weng和他的同事在英國378,256 名患者的醫療記錄上測試了幾種不同的機器學習工具。

這些記錄記載了2005 年到2015 年患者的健康狀況，並包括了一些人口學、醫療條件、處方藥、就診記錄、實驗室結果等資訊。

研究人員將病歷記錄中的 75% 投喂到他們的機器學習模型中，該模型旨在找出10 年內經歷了心臟病發作或中風的患者的特徵。然後，研究小組在另外25％的記錄中測試了模型，看看它們預測心臟病發作和中風的準確程度如何。他們還用該記錄的子集測試了標準預測方法的準確度。

使用1.0分表示100％準確度，標準方法得分為0.728。機器學習模型的準確率則從0.745到0.764，神經網路機器學習模型的得分最高。

也就是說，神經網路模型在7,404 例實際發生心臟病或中風的病例中正確預測出了4,998名患者，比標準方法高出355 名。有了這樣的預測，醫生就可以採取預防措施，如開處方藥降低膽固醇。

自閉症：僅使用三個變數，演算法檢測出了10 名自閉症兒童中的8名

北卡羅來納大學的一個研究團隊檢測到了6個月大的兒童與自閉症相關的大腦發育變化。深度學習演算法能夠使用這些資料來預測在24個月內，有罹患自閉症高度風險的兒童是否能被診斷出該病。

該演算法正確預測高危兒童的最終診斷準確率為81 ％，靈敏度為88％。與行為調查問卷相比，這無疑是更有幫助的結果——這些調查問卷診斷早期自閉症（大約12個月大），只有50％的準確性。

UNC 心理學家和大腦發育研究員資深作者Heather Hazlett說：“這優於以前那些辦法，並且能在兒童更小時就做出診斷。”

這一演算法運行良好，僅使用三個變數——腦表面積，腦容量和性別（男孩比女孩更容易發生自閉症）——該方法檢測出了10 名自閉症兒童中的8名。

據研究團隊成員、UNC神經圖像分析和研究實驗室聯合主任MartinStyner 說，訓練該演算法的團隊最初使用了一半的資料訓練，另一半用於測試。但是，根據評議人員的要求，他們隨後進行了更為標準的 10-fold 分析，其中資料被細分為10 個相等的部分。然後機器學習的過程進行10 輪，每輪用9 部分訓練，保留一部分用於測試。最後，最後收集10輪的“僅測試”結果，用於其預測。

幸運的是，Styner 說，兩種類型的分析 - 初始的50/50和最後的10-fold- 顯示了幾乎相同的結果。該團隊對預測精度感到滿意。

當然，Hazlett 也表示，項目的推進和普及還需要一些時間，“這樣昂貴的診斷測試不是所有的家庭都能負擔得起。”

阿爾茨海默：新方法可能沒有比舊的好太多，也許只是因為它使用了更好的資料

哈佛大學、麻塞諸塞州總醫院和華中科技大學的研究者合作設計了一項將fMRI腦掃描與臨床資料結合起來進行預測的方案。

麻塞諸塞州總醫院臨床資料科學中心的高級研究員QuanzhengLi說：“我們試圖在早期發現阿爾茨海默。很多人嘗試使用傳統的機器學習方法來做到這一點，但結果並不那麼好，因為這是一個非常困難的問題。”

初步測試後，研究人員表示，他們的深度學習程式與特殊的fMRI資料集配對時，比使用更基本的資料集的其他分類方法更準確。然而，當這些傳統分類器也使用特殊資料集時，它們在精度上也有類似的增益。

愛丁堡大學生物醫學工程師Javier Escudero表示，這個新方法可能沒有比舊的好太多，可能只是因為它使用了更好的資料。

如果是這樣，那麼想要借助深度學習方法診斷阿爾茨海默病的其他專家可能想要仔細觀察他們納入分析的資料。根據這項最新的研究，顯示大腦區域之間關係的fMRI掃描提供了比僅隨時間變化記錄測量結果更細微的視圖。

研究團隊想看看他們是否可以使用功能連接中的這些變化來預測阿爾茨海默病。他們從阿爾茨海默病神經影像學計畫提供的93 名MCI患者和101 名正常患者的資料開始。根據從參與者大腦中90個區域獲取的130 次fMRI測量的時間序列，研究人員可以知道一段時間內信號閃爍的位置。

接下來，在關鍵步驟中，研究者處理了該資料集，以便對相關腦區域中信號強度進行二次測量。換句話說，他們構建了一個功能連通圖，顯示哪些區域和信號彼此最密切相關。

最後，該團隊構建了一個深度學習程式，可以解釋這些模式，並結合年齡、性別和遺傳風險因素等臨床資料，預測一個人是否會發展成為阿爾茨海默病。

最後，該團隊說，其使用特殊處理的功能連接資料集的程式，在其資料集中預測患者是否會得阿爾茨海默病的準確率，接近90％。

手術：在60％的試驗中，STAR完全自主地完成了手術的規劃和執行

智慧手術機器人在計畫並執行手術，雖然監督者會偶爾進行幫助

機器人已經可以使用自己的視覺、工具和智慧來縫合豬的小腸。更重要的是，SmartTissue Autonomous Robot（STAR）在操作上表現得比人類外科醫生更好。

STAR 的發明者並沒有聲稱機器人可以很快在手術中取代人類。相反，他們使用了“有監督的自動化”的概念。

研究者之一、兒童外科醫生 Peter Kim 表示醫生的工作並沒有受到威脅。他說：“如果有一台能夠與我們一起工作以改善手術結果和安全性的機器，將是一件大好事。”

研究人員對他們的機器人進行了程式設計，進行了稱為腸縫合的手術——將被切割的腸段縫合在一起。該團隊的高級工程師RyanDecker說，縫合線必須緊密而有規律地隔開，以防止洩漏。經驗豐富的人類外科醫生同樣執行了相同的任務。當比較所得到的縫合線時，STAR 的針腳更加一致，更能防止洩漏。

在大約40％的實驗中，研究人員進行了干預，提供了某種類型的指導。在其他60％的試驗中，STAR完全自主地完成了這項工作。

人類外科醫生可以對手術進行，讓機器做更多的例行或繁瑣操作。

STAR通過整合幾種不同的技術來解決軟組織帶來的挑戰。其視覺系統依賴於放置在腸組織中的近紅外螢光（NIRF）標籤;一個專門的NIRF 攝像機跟蹤這些標記，而3D攝像機記錄整個外科手術的圖像。結合所有這些資料，STAR能夠將其重點放在目標上。機器人自己制定了縫合任務的計畫，並且隨著組織在運行過程中的移動，它自動調整了該計畫。

腦腫瘤：IBM Watson只花了10分鐘就分析了患者的基因組並提出了治療計畫，專家則花了160個小時

在治療腦腫瘤時，時間至關重要。在一項新的研究中，IBM Watson只花了10分鐘就分析完成了腦腫瘤患者的基因組並提出了治療計畫。但是，儘管人類專家花了160個小時來制定計劃，但研究結果並不表明機器對人類取得了全勝。

該病人是一名76歲的男子，他對醫生抱怨頭痛，步行困難。大腦掃描顯示出腫瘤，外科醫生迅速進行治療。該男子接受了三周的放射治療，並開始了長期的化療。儘管得到了最好的照顧，他一年內就去世了。雖然Watson 和醫生分析了患者的基因組，提出治療計畫，但是當他的組織樣本被測序時，患者已經每況愈下。

領導 Watson 基因組團隊的LaxmiParida 解釋說，大多數癌症患者沒有掃描其全部基因組（由30億單位的DNA組成）。相反，他們通常做的是一個“小組”測試，只檢測一些已知在癌症中發揮作用的基因亞組。

研究人員想知道如果掃描患者的整個基因組，雖然比運行“小組”測試更昂貴和耗時，但是否能為醫生設計治療計畫提供出真正有用的信息。

這個問題的答案是肯定的。 NYGC 臨床醫生和 Watson 都確定了在panel 測試中未檢查出的基因突變，提出了可能有作用的藥物和臨床試驗。

其次，研究人員想比較由IBM Watson和NYGC的醫學專家進行的基因組分析。

Watson 和專家組都收到了患者的基因組資訊，他們確定出顯示突變的基因，通過醫學文獻瞭解這些到突變是否在其他癌症病例中被發現，尋找藥物成功治療的報告，並檢查對患者可行的臨床試驗。人類花費了“160個小時”來給出建議，而Watson 在10分鐘內完成了上述過程。

不過，儘管 Watson 的解決方案最快，但可能不是最好的。 NYGC臨床醫生識別了兩個基因的突變，綜合考慮，最後醫生推薦患者參加了一項針對組合藥物治療的臨床試驗。如果患者的健康狀況仍然允許，他將會參加這次試驗，這本是他最有希望的生存機會。而Watson 沒有以這種方式合成資訊，因此沒有給出臨床試驗的建議。

眼科疾病：中山大學和西安電子科技大學合作研發CC-Cruise，目前和醫生表現相當

中國的一個研究團隊已經論證，在有高品質資料可用的情況下，人工智慧有可能幫助眼科疾病的醫療診斷。他們的AI 只訓練了410張先天性白內障（一種導致不可逆失明的罕見疾病）的圖像，再加上無病眼睛的476張圖像，就能判斷出白內障的嚴重程度，並提供治療建議。

受到DeepMind 2015年研究報告的啟發——該研究描述了基於最小啟動資訊的機器學習演算法在一系列街機遊戲中如何擊敗專業玩家——中山大學眼科醫生HaotianLin 和同事們創建了一個AI智慧體來挖掘他們的兒童期白內障臨床資料庫。

與西安電子科技大學的Xiyang Liu團隊合作，他們創建了CC-Cruiser，一個能夠診斷先天性白內障的AI程式，來預測疾病的嚴重程度，並給出治療決策。該程式使用深度學習演算法創建，用上述圖像進行訓練。

然後，研究人員對CC-Cruiser進行了五次測試。首先，在電腦類比中，AI程式能夠以98.87％的準確度區分患者和健康個體。估計疾病嚴重程度的三個指標中的每一個，——透鏡不透明區域、密度和位置——準確率達到93％以上。該方案還提供了準確率達到97.56％的治療建議。

接下來，該小組利用中國三家合作醫院的57張兒童眼睛圖像進行臨床試驗。所選擇的醫院都沒有專門診斷或治療這種病症的科室。因為該研究團隊希望該平臺最終將幫助缺乏專家的醫院。測試中，CC-Cruiser表現良好：達到98.25％的識別精度;所有三個嚴重程度指標的判斷準確率都超過92％，治療建議準確率超過92.86％。

為了模擬現實世界的使用，他們將該程式和眼科醫生的工作做了對比。三名眼科醫師 - 一名專家、一名骨幹和一名資歷較淺的一聲——和 CC-Cruiser 進行了50例臨床病例的PK。電腦和醫生表現相當。

在試驗中，AI做出了幾例不正確的標記，Lin 希望更大的資料集可以提高其性能。該團隊計畫建立一個協作雲平臺，但Lin強調，該技術“不夠”以100％的準確度確定最佳治療過程。因此，醫生應該充分利用機器的建議來識別並防止潛在的錯誤分類，並作為自己判斷的補充。

皮膚癌：自動皮膚癌分類最大資料集的構建

斯坦福大學的研究人員已經開發出一種演算法，可以識別照片中的皮膚癌。它不是第一個識別皮膚病變的自動化系統，但可能是最強大的。

研究團隊在GoogleNet Inception v3 架構上構建了一套深度學習演算法，即一種卷積神經網路演算法。斯坦福大學的研究人員對2000多種疾病近 13 萬張皮膚病變圖像進行了微調，這可能是自動皮膚癌分類中最大的資料集。

在研究中，該演算法的結果與21名皮膚科醫生的診斷進行了對比。醫生檢查了數百幅皮膚病變圖像，並確定是否對其進行進一步檢測，或者確保患者是良性的。該演算法檢測了相同的圖像並給出了其診斷。醫生和演算法之前都沒有看過圖像。

最終結果，電腦與專家一致。例如，該程式能夠區分角質形成細胞癌 - 最常見的人類皮膚癌- 和稱為脂溢性角化病的良性皮膚生長。

在現實應用之前，斯坦福大學的系統將需要受到更嚴峻的考驗。研究人員沒有要求演算法區分脂溢性角化病和黑素瘤，這可能是一個難點。

一般性診斷：大約72％的時間內，醫生給出了正確的診斷。AI 則在 34％的時間裡給出正確診斷

在 AI 和醫生的 PK 中，醫生們仍然有能夠取勝的領域。此前發表的JAMA Internal Medicine上有一

更多文章請關注基因穀旗下：

基因穀公眾號（jiyinguzixun）基因檢測領域最新技術進展、最新臨床應用、最新行業資訊。

基因穀官網（www.genegood.com）：基因檢測行業門戶網站。

根據評議人員的要求，他們隨後進行了更為標準的 10-fold 分析，其中資料被細分為10 個相等的部分。然後機器學習的過程進行10 輪，每輪用9 部分訓練，保留一部分用於測試。最後，最後收集10輪的“僅測試”結果，用於其預測。