今年六月對於 IBM 來說應該是不太走運的一個月, 先是股神巴菲特對外透露大舉減持IBM股票, 減持幅度多達三分之一。 緊接著第二天, 國際評級機構標普又將IBM的信用評級從AA-下調至A+, 理由是 IBM 近年來運營出現了衰退, 且轉型企穩的週期要比分析師預期的要長, 而這已經是繼穆迪調降IBM信用評級之後第二家給它“降級”的機構。
而對於IBM最為著名的產品沃森而言, 近期也出現了許多的負面報導, 包括沃森集團與休士頓的癌症治療機構M.D.安德森中心的合作在今年分崩離析;隨著 IBM 公司的營業額暴跌, 股價一直搖擺不定, 商業分析專家們一直質疑沃森到底何時能夠為公司創造出真正的商業價值。
多重怨念積累之下, 資深技術投資者和風投公司 Social Capital 的創始人 Chamath Palihapitiya 于 5 月份在 CNBC 上甚至直接炮轟:“沃森就是個笑話。 ” Palihapitiya認為, IBM的專長其實只是通過他們強大的行銷和市場能力,
圖 | 風投公司 Social Capital 的創始人Chamath Palihapitiya
不過, IBM對於這一指責也並非無動於衷, 他們曾在一份聲明反擊道:“沃森並不是一個消費類產品, 而是一個真正能為產業服務的人工智慧平臺。 沃森目前已經被美國及其他五個國家用於醫學診療領域。
圖丨M.D.安德森中心
然而, 大部分針對沃森的批評, 包括與 M.D.安德森中心的分道揚鑣, 並非是出於沃森有什麼特別的技術缺陷。 相反, 批評針對的恰恰是 IBM 之前對沃森前景過於樂觀的聲明, 關於沃森迄今應該取得的成就云云。
事實上, 在醫療人工智慧領域, 沃森健康應該仍處於領先地位。 如果說目前沃森還沒有取得顯著成就, 那麼最明顯的阻礙之一就是它需要特定類型的資料進行“訓練”, 這些資料通常要麼非常緊缺, 要麼難以訪問。 這不是沃森獨有的問題, 這是整個醫療機器學習領域面臨的通病。
儘管資料匱乏影響了沃森的開發速度,
可以這麼說, 儘管 M.D. 安德森項目遇到了問題, IBM 仍然佔據著決定性的優勢:它能為沃森搭建廣闊的平臺——合作中的醫療中心、衛生管理機構和生命科學公司都將提供未來醫學人工智慧所需的關鍵資料。
圖丨M.D.安德森中心的白血病醫生 Courtney DiNardo 在2013年與病人會診時使用了IBM的沃森系統
毫無疑問,與M.D.安德森中心分道揚鑣,給了努力推廣沃森的 IBM 當頭一棒。該中心與 IBM 的合作開始於 2012 年,旨在允許沃森讀取一切有關病人症狀、基因序列和病理報告的資料,結合醫生的病案筆記以及相關期刊文章,幫助醫生提供診斷和治療方法。但很明顯, IBM 和M.D.安德森中心對技術的期望顯然過高了。
2013 年,IBM 聲稱“一個新的計算時代已經降臨”,同時向福布斯雜誌暗示,沃森“已進入臨床試驗階段”,並將在短短幾個月內投入使用。2015 年,華盛頓郵報引用了一位 IBM 沃森經理的話,描述沃森如何忙著建立一個“溝通機器與人的集體智慧模型”。華盛頓郵報還說,沃森系統會“和醫生一起訓練,去做他們做不到的事”。
今年 2 月, 運營M.D.安德森中心的德克薩斯大學宣佈關閉與 IBM 的合作項目,為合同上最初價值 240 萬美元的項目向 IBM 支付高達 3900 萬美元的賠款。四年過去了,沃森並沒有為那些苦苦期盼的患者帶來任何幫助,M.D.安德森中心也沒有對沃森作出具體評價,但問題似乎主要來自於專案管理和資金分配的內部鬥爭。
但這並不意味著 IBM 在沃森的技術開發上沒有遇到困難。事實上,技術上的進展比表面上看起來要更加艱難。
要瞭解是什麼阻礙了研發進程,你必須先理解沃森一類的機器學習系統是如何接受訓練的。沃森能夠通過不斷調整其內部程式來“學習”,並對特定類型的問題給出最有可能是正確的答案(例如,哪張放射影像上顯示了腫瘤)。正確的答案必須是已知的,這樣給出答案後系統就能夠得到正確的回饋。系統被“餵養”的訓練問題越多,它的命中率就越高,機器學習能夠輕鬆地通過X光影像判定惡性腫瘤。
但是,對於遠遠超出已知範圍的、潛在的突破性謎題,比如檢測基因排列和疾病之間的關係,沃森面臨著一個“先有雞還是先有蛋”的問題:它如何利用未經專家篩選的資料進行訓練?
圖丨IBM 於2015年宣佈,沃森的診斷能力將因為從 Merge Healthcare 獲得的資料而得以大幅提升。
紐約一家癌症中心 Memorial Sloan-Kettering的計算病理學家 Thomas Fuchs 說:“訓練一輛自動駕駛的車,任何人都可以告訴它前面有一棵樹或一面路牌,駕駛系統就學會了辨識路障。但是,在醫學的專業領域,這種情況少之又少,只有培訓了數十年的專家才能告訴系統什麼是正確答案。”
在機器學習系統的每一個領域,都會出現這類絆腳石的翻版。為了訓練沃森通過巨大的資料池,把少數重要的資訊提取給某一個病人,需要先有人手動做一遍,而且要做成千上萬份。為了識別與疾病相關的基因,沃森需要數千份特定疾病的患者記錄,而且這些患者得有DNA分析報告。但兩者很難同時獲得。資料不存在、格式不統一是常見的絆腳石,也可能資料分散在幾十個不同的醫療中心,很難收集利用。
所以,不妨我們先來考慮一下沃森的目標。例如,把準確的資料提供給臨床醫生來改善初級衛生保健。萬一醫生在常規檢查中漏過了小問題,小問題就會演變成大問題,病人將被送到急診室,或不得不掛個專家號,不但健康受到損害,醫療費用也將暴漲。“大約有三分之一的醫療費用很可能是不必要的,” IBM沃森健康的首席醫療官兼家庭醫生 Anil Jain說。很多人認為,機器學習系統是解決這個問題的一個機會。
圖丨IBM沃森健康的首席醫療官兼家庭醫生 Anil Jain
然而,為了真正幫助醫生取得更好的治療效果,沃森需要找出病歷記錄和 “決定健康的社會因素”之間的關係。這些因素包括:患者是否吸毒,飲食是否安全,是否能呼吸到清新的空氣等等。目前,幾乎沒有任何醫療機構能可靠地獲取大部分患者的此類資料,部分原因是醫院遲遲沒有採用現代化的電子資訊管理系統。
對此,Cleveland診所的醫療資訊學專家、內科醫生Manish Kohli 說:“在使用電子資訊技術方面,醫療行業一直是非常落後的。”
資料只要存在,IBM 就能購買。IBM已經收購了許多活躍在醫護大資料處理前線的公司(例如Truven健康分析公司、Explorys以及 Phytel)。即使與 M.D. 安德森中心的合作終止了,IBM仍擁有一些關鍵的合作夥伴,得以進一步訪問患者資料。Atrius健康就是IBM的合作夥伴之一,其網路覆蓋了整個波士頓地區的近900個保健醫生(大多數是家庭醫生)。雙方合作的目的是開發並測試一款基於沃森的系統,能從各類筆記、記錄和文章中大海撈針般調取出對單個病人至關重要的資訊。
“如今的家庭醫生面臨著一項繁重的工作,就是要尋求所有相關資訊,” Atrius首席醫療官 Joe Kimura 說。而電子病案記錄可能使問題變得更糟,因為這類電子系統極大增加了每次訪問生成的資料量,卻並未提供便於檢索的標準格式。
圖丨Atrius 健康
關鍵的一點是病案記錄中有許多非常重要的注釋,往往是常規IT系統無法理解的語句,但沃森可以用它的自然語言處理技術提取這些語句的意義。理想狀況下,它能幫助醫生避免過度醫療帶來的副作用。Kimura 問道:“為什麼我們只盯著髖骨骨折的患者,而不去預測哪些患者有跌倒的風險、幫他們預防骨折呢?我們需要做得更超前。”
沃森醫療公司還與紐約中央護理協會合作。該協會由政府資助,業務範圍覆蓋了六個縣的大約 2000 家醫療機構。有時,已出院的病人由於一些遺留問題不得不返回該醫院解決,沃森希望,此次合作能使這類情況導致的接診率和再住院率下降25%。同時,合作還能提供大量潛在的醫療資料。
獲取此類資料還有其他方法——穀歌的一家姊妹公司正試圖直接從病人身上直接挖掘資料。事實上,Verily Life Sciences(Alphabet 的醫護部門)正與杜克大學和斯坦福大學合作,基於10000名志願者研發一個高度結構化的健康資料庫。該資料庫將不僅包括臨床檢查資訊,而且還包括可穿戴健康監測設備的資訊。儘管可能需要十年或更長時間才會產生可用結果,但這項新技術仍然很有希望為資料訪問帶來一個飛躍。
而前文提到的紐約癌症中心病理學家 Fuchs 在 Memorial Sloan Kettering 的開發小組希望培養一個能夠讀取染色組織玻片的人工智慧系統。這需要一個包含了玻片圖像、數位標注、確診資訊和其他關鍵資料的大型資料庫。因此,該小組準備每月生產4萬張這樣的玻片。“這是一個無人能及的工作量,” Fuchs說。“生物學上的各種變化使這項任務變得十分艱巨。”
另一端,儘管與沃森的合作已流產,M.D. 安德森中心也正在進行一個大型計畫。這項計畫與IBM的動作在差不多同一時間開始,致力於從每一位走進門的病人身上收集1700種類型的臨床資料。運行計畫的研究人員 Andy Futreal 認為,對於沃森一類的人工智慧來說,將病人資訊和研究資料結合到一起是至關重要的。他說:“一旦我們集齊資料,就可以讓人工智慧來學習,然後發現影響病人治療結果的因素。”
IBM 將會繼續從合作醫院中收集資料。在癌症診斷和治療方面,該公司的合作對象包括 Memorial Sloan-Kettering、Mayo Clinic、哈佛和麻省理工學院附屬的 Broad 研究所,以及醫學測試巨頭 Quest Diagnostics。與 Memorial Sloan-Kettering 的合作已經誕生了一個能通過篩選期刊文獻提出治療決策的系統,並已在佛羅里達 Jupiter 醫療中心和印度的連鎖醫院推廣。
在藥物發現方面,沃森健康與Barrow 神經研究所合作,已找到5個之前從未被發現,卻與肌萎縮硬化症有關的基因。在與安大略腦系研究所的合作中,沃森確定了21個潛在的候選藥物。
沃森最終能夠改善保健活動、降低醫療成本嗎?非常可能。風投公司 Bessemer Venture Partners 的合夥人Stephen Kraus 也是許多醫療人工智慧創始公司的投資人,他表示:“這都是真刀真槍,而不是為了提振股價而發放的煙霧彈。”但 Kraus 和大多數專家一樣, 認為人們不應該對實現的時間以及美好的承諾過於期待。
“這很難,這不是今天發生的事,也可能不會在五年內發生,而且它也不能取代醫生的地位。”
圖丨M.D.安德森中心的白血病醫生 Courtney DiNardo 在2013年與病人會診時使用了IBM的沃森系統
毫無疑問,與M.D.安德森中心分道揚鑣,給了努力推廣沃森的 IBM 當頭一棒。該中心與 IBM 的合作開始於 2012 年,旨在允許沃森讀取一切有關病人症狀、基因序列和病理報告的資料,結合醫生的病案筆記以及相關期刊文章,幫助醫生提供診斷和治療方法。但很明顯, IBM 和M.D.安德森中心對技術的期望顯然過高了。
2013 年,IBM 聲稱“一個新的計算時代已經降臨”,同時向福布斯雜誌暗示,沃森“已進入臨床試驗階段”,並將在短短幾個月內投入使用。2015 年,華盛頓郵報引用了一位 IBM 沃森經理的話,描述沃森如何忙著建立一個“溝通機器與人的集體智慧模型”。華盛頓郵報還說,沃森系統會“和醫生一起訓練,去做他們做不到的事”。
今年 2 月, 運營M.D.安德森中心的德克薩斯大學宣佈關閉與 IBM 的合作項目,為合同上最初價值 240 萬美元的項目向 IBM 支付高達 3900 萬美元的賠款。四年過去了,沃森並沒有為那些苦苦期盼的患者帶來任何幫助,M.D.安德森中心也沒有對沃森作出具體評價,但問題似乎主要來自於專案管理和資金分配的內部鬥爭。
但這並不意味著 IBM 在沃森的技術開發上沒有遇到困難。事實上,技術上的進展比表面上看起來要更加艱難。
要瞭解是什麼阻礙了研發進程,你必須先理解沃森一類的機器學習系統是如何接受訓練的。沃森能夠通過不斷調整其內部程式來“學習”,並對特定類型的問題給出最有可能是正確的答案(例如,哪張放射影像上顯示了腫瘤)。正確的答案必須是已知的,這樣給出答案後系統就能夠得到正確的回饋。系統被“餵養”的訓練問題越多,它的命中率就越高,機器學習能夠輕鬆地通過X光影像判定惡性腫瘤。
但是,對於遠遠超出已知範圍的、潛在的突破性謎題,比如檢測基因排列和疾病之間的關係,沃森面臨著一個“先有雞還是先有蛋”的問題:它如何利用未經專家篩選的資料進行訓練?
圖丨IBM 於2015年宣佈,沃森的診斷能力將因為從 Merge Healthcare 獲得的資料而得以大幅提升。
紐約一家癌症中心 Memorial Sloan-Kettering的計算病理學家 Thomas Fuchs 說:“訓練一輛自動駕駛的車,任何人都可以告訴它前面有一棵樹或一面路牌,駕駛系統就學會了辨識路障。但是,在醫學的專業領域,這種情況少之又少,只有培訓了數十年的專家才能告訴系統什麼是正確答案。”
在機器學習系統的每一個領域,都會出現這類絆腳石的翻版。為了訓練沃森通過巨大的資料池,把少數重要的資訊提取給某一個病人,需要先有人手動做一遍,而且要做成千上萬份。為了識別與疾病相關的基因,沃森需要數千份特定疾病的患者記錄,而且這些患者得有DNA分析報告。但兩者很難同時獲得。資料不存在、格式不統一是常見的絆腳石,也可能資料分散在幾十個不同的醫療中心,很難收集利用。
所以,不妨我們先來考慮一下沃森的目標。例如,把準確的資料提供給臨床醫生來改善初級衛生保健。萬一醫生在常規檢查中漏過了小問題,小問題就會演變成大問題,病人將被送到急診室,或不得不掛個專家號,不但健康受到損害,醫療費用也將暴漲。“大約有三分之一的醫療費用很可能是不必要的,” IBM沃森健康的首席醫療官兼家庭醫生 Anil Jain說。很多人認為,機器學習系統是解決這個問題的一個機會。
圖丨IBM沃森健康的首席醫療官兼家庭醫生 Anil Jain
然而,為了真正幫助醫生取得更好的治療效果,沃森需要找出病歷記錄和 “決定健康的社會因素”之間的關係。這些因素包括:患者是否吸毒,飲食是否安全,是否能呼吸到清新的空氣等等。目前,幾乎沒有任何醫療機構能可靠地獲取大部分患者的此類資料,部分原因是醫院遲遲沒有採用現代化的電子資訊管理系統。
對此,Cleveland診所的醫療資訊學專家、內科醫生Manish Kohli 說:“在使用電子資訊技術方面,醫療行業一直是非常落後的。”
資料只要存在,IBM 就能購買。IBM已經收購了許多活躍在醫護大資料處理前線的公司(例如Truven健康分析公司、Explorys以及 Phytel)。即使與 M.D. 安德森中心的合作終止了,IBM仍擁有一些關鍵的合作夥伴,得以進一步訪問患者資料。Atrius健康就是IBM的合作夥伴之一,其網路覆蓋了整個波士頓地區的近900個保健醫生(大多數是家庭醫生)。雙方合作的目的是開發並測試一款基於沃森的系統,能從各類筆記、記錄和文章中大海撈針般調取出對單個病人至關重要的資訊。
“如今的家庭醫生面臨著一項繁重的工作,就是要尋求所有相關資訊,” Atrius首席醫療官 Joe Kimura 說。而電子病案記錄可能使問題變得更糟,因為這類電子系統極大增加了每次訪問生成的資料量,卻並未提供便於檢索的標準格式。
圖丨Atrius 健康
關鍵的一點是病案記錄中有許多非常重要的注釋,往往是常規IT系統無法理解的語句,但沃森可以用它的自然語言處理技術提取這些語句的意義。理想狀況下,它能幫助醫生避免過度醫療帶來的副作用。Kimura 問道:“為什麼我們只盯著髖骨骨折的患者,而不去預測哪些患者有跌倒的風險、幫他們預防骨折呢?我們需要做得更超前。”
沃森醫療公司還與紐約中央護理協會合作。該協會由政府資助,業務範圍覆蓋了六個縣的大約 2000 家醫療機構。有時,已出院的病人由於一些遺留問題不得不返回該醫院解決,沃森希望,此次合作能使這類情況導致的接診率和再住院率下降25%。同時,合作還能提供大量潛在的醫療資料。
獲取此類資料還有其他方法——穀歌的一家姊妹公司正試圖直接從病人身上直接挖掘資料。事實上,Verily Life Sciences(Alphabet 的醫護部門)正與杜克大學和斯坦福大學合作,基於10000名志願者研發一個高度結構化的健康資料庫。該資料庫將不僅包括臨床檢查資訊,而且還包括可穿戴健康監測設備的資訊。儘管可能需要十年或更長時間才會產生可用結果,但這項新技術仍然很有希望為資料訪問帶來一個飛躍。
而前文提到的紐約癌症中心病理學家 Fuchs 在 Memorial Sloan Kettering 的開發小組希望培養一個能夠讀取染色組織玻片的人工智慧系統。這需要一個包含了玻片圖像、數位標注、確診資訊和其他關鍵資料的大型資料庫。因此,該小組準備每月生產4萬張這樣的玻片。“這是一個無人能及的工作量,” Fuchs說。“生物學上的各種變化使這項任務變得十分艱巨。”
另一端,儘管與沃森的合作已流產,M.D. 安德森中心也正在進行一個大型計畫。這項計畫與IBM的動作在差不多同一時間開始,致力於從每一位走進門的病人身上收集1700種類型的臨床資料。運行計畫的研究人員 Andy Futreal 認為,對於沃森一類的人工智慧來說,將病人資訊和研究資料結合到一起是至關重要的。他說:“一旦我們集齊資料,就可以讓人工智慧來學習,然後發現影響病人治療結果的因素。”
IBM 將會繼續從合作醫院中收集資料。在癌症診斷和治療方面,該公司的合作對象包括 Memorial Sloan-Kettering、Mayo Clinic、哈佛和麻省理工學院附屬的 Broad 研究所,以及醫學測試巨頭 Quest Diagnostics。與 Memorial Sloan-Kettering 的合作已經誕生了一個能通過篩選期刊文獻提出治療決策的系統,並已在佛羅里達 Jupiter 醫療中心和印度的連鎖醫院推廣。
在藥物發現方面,沃森健康與Barrow 神經研究所合作,已找到5個之前從未被發現,卻與肌萎縮硬化症有關的基因。在與安大略腦系研究所的合作中,沃森確定了21個潛在的候選藥物。
沃森最終能夠改善保健活動、降低醫療成本嗎?非常可能。風投公司 Bessemer Venture Partners 的合夥人Stephen Kraus 也是許多醫療人工智慧創始公司的投資人,他表示:“這都是真刀真槍,而不是為了提振股價而發放的煙霧彈。”但 Kraus 和大多數專家一樣, 認為人們不應該對實現的時間以及美好的承諾過於期待。
“這很難,這不是今天發生的事,也可能不會在五年內發生,而且它也不能取代醫生的地位。”