您的位置:首頁>正文

Nature特寫:人工智慧助力化學藥物“宇宙”漫遊指南

系外行星Ross 128b繞一顆低溫矮星運行, 它的表面可能存在液態水。 Vasava

本文轉載自“Nature自然科研”, 原文以The drug-maker's guide to the galaxy為標題發佈在2017年12月26日的《自然》新聞特寫上,

原文作者:Asher Mullard。

在2016年, Sunovion製藥公司交給一些老員工一項特殊任務。 在美國麻塞諸塞州的公司總部, 化學家們被要求進行一項尋找新藥最佳先導化合物的遊戲。 在他們的工作站中有包括幾百種化學結構的網格, 其中只有十種標有相關生物學資訊。 專家們必須基於他們辛苦學到的化學結構及生物知識來選出其他可能作為候選藥物的分子。 在11位選手中, 10位為這項任務冥思苦想了數小時, 但剩下的一名選手卻在幾毫秒內就輕鬆完成, 因為這名選手是一種電腦演算法。

這一電腦程式由Willem van Hoorn創造, 他是利用人工智慧設計藥物的新公司Exscientia的化學資訊學負責人。 這一公司位於英國鄧迪, 希望能與Sunovion建立初步合作關係, 為此下了很高的賭注。

“我的信譽危在旦夕。 ”Hoorn表示。 二十輪遊戲結束後, 他高分勝出, 也終於松了一口氣。 他的演算法似乎是運用了一些化學黑魔法;因為最後僅有一位藥物發現專家擊敗了機器。

從那時起, Exscientia公司便和Sunovion繼續合作開發精神病治療藥物。 Sunovion的計算化學主管Scott Brown表示:“這場競賽的確説明我們拉攏了化學研究決策者。 ”

Exscientia公司是工業和學術界中與日俱增的、利用電腦探索廣闊化學藥品宇宙的眾多團隊之一。 化學家們估計約有10^60種具有藥物特性的化合物能夠被合成, 這些小分子的數目甚至超過了太陽系所有原子的總數。 他們希望通過電腦演算法對無數的化合物進行登記、分類並比較其特性, 從而幫助研究者快速、低成本地找到針對某一靶點的最佳候選藥物。

支持者們表示這樣的策略能夠使藥物更安全, 減少在臨床實驗中失敗的藥物數量, 同時使得新治療方法的發現成為可能。 此外還有助於開啟未探索過以及曾被認為無價值的化學領域。

然而仍有許多藥物化學家對此持懷疑態度, 不相信奇妙、複雜的化學能夠簡單縮減為幾行代碼。 甚至某些人工智慧的擁護者也承認許多嘗試都以失敗告終:電腦生成的化合物中充斥著難以合成的結構, 如3-或4-原子環, 同時還有許多不安全的活性基團。 van Hoorn認為:“如果研究者不瞭解該領域, 只是簡單執行某些計算方法會產生失敗結果, 他們想出的化合物純屬笑話。 ”但他也表示專業人員的參與或許能夠幫助這些熱心的設計者。

“我覺得如果電腦科學家與真正的化學家合作, 某些想法是能夠實現的。 ”

探索化學宇宙

在化合物的宇宙中航行需要有地圖的説明。 在2001年, 瑞士伯恩大學的化學家Jean-Louis Reymond開始利用電腦來繪製一幅盡可能全面的化學宇宙地圖。 經過16年努力, 他構建出世界上最大的小分子資料庫, 即一個包含1660億種化合物的龐大虛擬集合。 這一資料庫被命名為GDB-17, 包括全部符合化學原理的、由少於17個原子構成的有機分子, 這一數目是Reymond的電腦能夠處理的上限。 Reymond表示:“僅僅是用電腦形成資料庫中化合物的清單就需要10個小時以上。 ”

為了理清過剩的潛在藥物原始資訊, Reymond想出了一種使化合物宇宙系統化的辦法。 受元素週期表的啟發,

他將各化合物在多維空間內分類, 相鄰化合物具有相近特性。 各化合物的位置由42種特性來決定, 例如每種化合物中所含的碳原子數。

每種投放到市場中的藥物都有成千上萬種與其化學結構基本相同的化合物, 其差別僅僅在於一個氫原子或一個雙鍵。 這其中某些化合物可能比獲批的藥物效果更好。 化學家不可能在沒有外界説明的情況下考慮到所有這些變體。 正如Reymond所言:“僅用紙筆絕不可能得到所有這些異構體。 ”

而Reymond和他的團隊能夠通過搜索化合物之間相似性, 來鑒定與已批准藥物相近、有潛在治療價值的其他化合物。 以某種藥物作為出發點, 團隊能夠在三分鐘內篩選資料庫中的1660億種化合物來尋找後續候選藥物。 在一次概念驗證實驗中,Reymond以一種能與乙醯膽鹼受體(與神經系統和肌肉功能失調相關的重要靶點)結合的已知分子為出發點 ,編制出包括344種化合物的名單。該團隊合成了其中三種化合物,並且發現兩種能夠有效啟動受體,或許能夠用於治療老年人肌肉萎縮。Reymond表示這種方法像是利用地圖來找金子,他說:“你需要某種方式來選擇去哪裡挖。”

另外一種方式用電腦在多個位置尋找金子,而不必太在意起點。用藥物發現的專業術語來說,這意味著用電腦篩選龐大的化合物庫來尋找能與特定蛋白結合的小分子。首先,研究者必須利用X射線晶體學獲得某個蛋白的快照,來決定它結合位點的形狀。然後,利用分子對接演算法,計算化學家能夠從化合物庫中尋找出給定位點的最佳匹配。

隨著電腦技術飛速發展,這些演算法的能力也得到了提升。加州大學三藩市分校的化學家們在Brian Shoichet的帶領下在2016年通過尋找一種新型止痛藥展現了這種方法的潛力。該團隊從300萬種市場上買得到的化合物中篩選能夠選擇性啟動μ-阿片受體信號通路的候選藥物,以此來減輕疼痛同時不擾亂密切相關的β-抑制蛋白信號通路,該通路與阿片類藥物的副作用(如呼吸頻率下降及便秘)相關。研究者們迅速將範圍從一個巨大的化合物庫縮小到僅有23種高排名的化合物用於後續研究。

在一個試管中,七種候選化合物顯示出理想的活性。其中一種在後續研究中被製成化合物PZM21,能夠作用于μ-阿片受體而不啟動β-抑制蛋白。位於三藩市、由Shoichet共同創立的生物科技公司Epiodyne正在根據這些發現開發更安全的止痛藥。Shoichet計畫利用同樣的方法尋找能夠調節其他G蛋白偶聯受體(GPCRs)的化合物, 該家族的蛋白在所有藥物靶點中占到40%。

他的團隊同時對含有一億種化合物的虛擬星雲進行相似的實驗,這些化合物從未被合成但其合成過程應該較簡單。工業藥物開發者也在用同樣的方法進行測試:位於麻塞諸塞州的生物科技公司Nimbus Therapeutics將一些存在於自然界卻難以從環境(如土壤)中分離的虛擬化合物納入對接篩選。是否能夠發現藥物還沒有定論,但該公司的首席執行官Don Nicholson針對至少一項藥物設計程式表示:“這將是我們全部匹配藥物的來源。”

這些虛擬篩選的初步結果動搖了Shoichet對於化學藥物宇宙的核心假設之一:只有完善的、藥物豐富的區域才是值得關注的。已劃分的分子星系充斥著有生物活性的化合物,以至於一些人認為在其他地方尋找是浪費時間。“在我的職業生涯中我始終相信推理過程,這麼做是有道理的,儘管可能沒有很多證據來證明。” Shoichet表示。然而他尚未發表的、對一億種化合物的篩選結果引起了他對化學藥物宇宙中很少被探索區域的興趣。“我開始認為那些星系中藏滿了金子。”

電腦的“智慧”

這些資料搜索方法被試驗和測試,但用於工作的電腦只能服從腳本指令。計算藥物發現的最前沿是機器學習,演算法能夠利用資料和經驗來告訴自己哪種化合物與哪個靶點結合,發現人類無法察覺的模式。十幾家公司紛紛開始創造藥物搜索演算法,並與大型製藥企業合作進行測試。

Exscientia的首席執行官Andrew Hopkins為這些方法的能力做出了強有力的證明。臨床前測試發現和優化候選藥物平均需要4.5年,化學家們常常合成上千種化合物才能得到有價值的先導化合物(即使這樣真正投入市場的希望也非常渺茫)。Exscientia方法利用了多種演算法(其中包括給Sunovion公司研發高管留下深刻印象的那一種)或許能夠將時間線縮短到一年,同時縮減藥物發現專案中需要考慮的化合物數目。

在2015年,Exscientia完成了大日本住友製藥公司(位於日本大阪, Sunovion是其旗下的公司)為期12個月的研發專案。研究者訓練他們的人工智慧工具來尋找同時調節兩個G蛋白偶聯受體的小分子,發現要找到一種好的候選藥物僅需要合成小400種化合物。Hopkins表示最後篩選到的藥物現在已準備進行精神疾病的臨床試驗。從五月起,公司已經與巴黎賽諾菲公司和英國葛蘭素史克公司簽署了數億美元的合約。

除了鑒定先導化合物之外,機器學習演算法還能説明藥物開發者決定將哪些化合物扼殺在搖籃中,加利福尼亞州聖布魯諾一家人工智慧藥物設計公司Numerate的首席技術官Brandon Allgood表示。如果一種化合物無法通過毒性或吸收性測試,那從一開始就沒有必要製作或測試它。“人工智慧只需要幾毫秒來決定是否排除這種化合物。” Allgood說,在開始利用人工智慧工具研究化學物質宇宙前,他曾學習宇宙學。Numerate今年已與製藥公司達成兩筆交易,其中一筆與位於法國敘雷訥的施維雅公司合作,將人工智慧發現的藥物投入心臟衰竭和心律失常的臨床實驗中。

儘管工業投資快速增長,但計算方法仍有待證明。雖然Reymond的資料庫比其他庫更加龐大,但它僅包括了化學藥物宇宙中微小的一部分(參見“化學藥物宇宙”)。儘管他的資料庫中已包括1660億種化合物,但他仍需要繼續探索,正如一個嘗試數清夜空中所有星星的宇航員才剛剛只數了一個。基於將樣品與蛋白相匹配的篩選需要準確的晶體結構才能得到最好的結果,而生成這些資料需要時間、金錢和經驗。

這些方法同時很難處理動態的蛋白,無法可靠地對候選者的優良性進行排序。從機器學習演算法的角度而言,它們的表現取決於為其提供根基的培訓資料集,當它們遇到與之前見過的分子相似度極低的化合物,演算法的表現便會很糟糕。除此之外,整個程式如同黑箱作業,無法得知機器學習為何預測某個化合物是良好的匹配。

許多計算方法還有一個惱人之處便是常常給出難以在實驗室合成的化合物。化學家不得不費力的想辦法合成候選化合物,可能要花費幾個月甚至更長。即便如此,合成的分子也不能保證有作用。Reymond的方法目前預測化合物活性的準確率僅有5~10%,這意味著化學家不得不辛苦嘗試多達20種化合物來找到其中一種符合期望的。Reymond 表示:“我們探索化學藥物宇宙的瓶頸是敢於合成化合物的能力。”為了解決這個問題,他最近將他的化學物質宇宙縮減到1000萬種易合成,同時仍覆蓋廣泛特徵的分子。

美國麻塞諸塞州Relay Therapeutics公司的首席科學官Mark Murcko認為計算化學家應該少關注新的演算法策略而將注意力放在提高演算法的培訓資料集。他表示:“我所知道的讓一個預測模型變得更準確的好方法之一就是給它更多更好的資料。” Relay和其他公司鼓勵化學家和計算科學家密切合作,合成由人類和演算法共同建議的化合物,同時根據得到的結果來進改善未來的決策。

對於Hopkins,這樣的合作至關重要。電腦科學家曾花費數十年來寫能夠戰勝圍棋大師的程式。在1997年,IBM的深藍擊敗了Garry Kasparov。然而這樣的失敗並不意味著圍棋的結束。相反,Kasparov設置了一場雙人比賽,每隊有一個人類一個人工智慧。Hopkins 表示:“人類和人工智慧一起能勝過任何人,同樣也勝過任何演算法。” 他希望用同樣的方式將資料分析、創造性和常識相結合來改變藥物發現,“我相信我們現在正處在Kasparov與深藍聯合的時刻”。

在一次概念驗證實驗中,Reymond以一種能與乙醯膽鹼受體(與神經系統和肌肉功能失調相關的重要靶點)結合的已知分子為出發點 ,編制出包括344種化合物的名單。該團隊合成了其中三種化合物,並且發現兩種能夠有效啟動受體,或許能夠用於治療老年人肌肉萎縮。Reymond表示這種方法像是利用地圖來找金子,他說:“你需要某種方式來選擇去哪裡挖。”

另外一種方式用電腦在多個位置尋找金子,而不必太在意起點。用藥物發現的專業術語來說,這意味著用電腦篩選龐大的化合物庫來尋找能與特定蛋白結合的小分子。首先,研究者必須利用X射線晶體學獲得某個蛋白的快照,來決定它結合位點的形狀。然後,利用分子對接演算法,計算化學家能夠從化合物庫中尋找出給定位點的最佳匹配。

隨著電腦技術飛速發展,這些演算法的能力也得到了提升。加州大學三藩市分校的化學家們在Brian Shoichet的帶領下在2016年通過尋找一種新型止痛藥展現了這種方法的潛力。該團隊從300萬種市場上買得到的化合物中篩選能夠選擇性啟動μ-阿片受體信號通路的候選藥物,以此來減輕疼痛同時不擾亂密切相關的β-抑制蛋白信號通路,該通路與阿片類藥物的副作用(如呼吸頻率下降及便秘)相關。研究者們迅速將範圍從一個巨大的化合物庫縮小到僅有23種高排名的化合物用於後續研究。

在一個試管中,七種候選化合物顯示出理想的活性。其中一種在後續研究中被製成化合物PZM21,能夠作用于μ-阿片受體而不啟動β-抑制蛋白。位於三藩市、由Shoichet共同創立的生物科技公司Epiodyne正在根據這些發現開發更安全的止痛藥。Shoichet計畫利用同樣的方法尋找能夠調節其他G蛋白偶聯受體(GPCRs)的化合物, 該家族的蛋白在所有藥物靶點中占到40%。

他的團隊同時對含有一億種化合物的虛擬星雲進行相似的實驗,這些化合物從未被合成但其合成過程應該較簡單。工業藥物開發者也在用同樣的方法進行測試:位於麻塞諸塞州的生物科技公司Nimbus Therapeutics將一些存在於自然界卻難以從環境(如土壤)中分離的虛擬化合物納入對接篩選。是否能夠發現藥物還沒有定論,但該公司的首席執行官Don Nicholson針對至少一項藥物設計程式表示:“這將是我們全部匹配藥物的來源。”

這些虛擬篩選的初步結果動搖了Shoichet對於化學藥物宇宙的核心假設之一:只有完善的、藥物豐富的區域才是值得關注的。已劃分的分子星系充斥著有生物活性的化合物,以至於一些人認為在其他地方尋找是浪費時間。“在我的職業生涯中我始終相信推理過程,這麼做是有道理的,儘管可能沒有很多證據來證明。” Shoichet表示。然而他尚未發表的、對一億種化合物的篩選結果引起了他對化學藥物宇宙中很少被探索區域的興趣。“我開始認為那些星系中藏滿了金子。”

電腦的“智慧”

這些資料搜索方法被試驗和測試,但用於工作的電腦只能服從腳本指令。計算藥物發現的最前沿是機器學習,演算法能夠利用資料和經驗來告訴自己哪種化合物與哪個靶點結合,發現人類無法察覺的模式。十幾家公司紛紛開始創造藥物搜索演算法,並與大型製藥企業合作進行測試。

Exscientia的首席執行官Andrew Hopkins為這些方法的能力做出了強有力的證明。臨床前測試發現和優化候選藥物平均需要4.5年,化學家們常常合成上千種化合物才能得到有價值的先導化合物(即使這樣真正投入市場的希望也非常渺茫)。Exscientia方法利用了多種演算法(其中包括給Sunovion公司研發高管留下深刻印象的那一種)或許能夠將時間線縮短到一年,同時縮減藥物發現專案中需要考慮的化合物數目。

在2015年,Exscientia完成了大日本住友製藥公司(位於日本大阪, Sunovion是其旗下的公司)為期12個月的研發專案。研究者訓練他們的人工智慧工具來尋找同時調節兩個G蛋白偶聯受體的小分子,發現要找到一種好的候選藥物僅需要合成小400種化合物。Hopkins表示最後篩選到的藥物現在已準備進行精神疾病的臨床試驗。從五月起,公司已經與巴黎賽諾菲公司和英國葛蘭素史克公司簽署了數億美元的合約。

除了鑒定先導化合物之外,機器學習演算法還能説明藥物開發者決定將哪些化合物扼殺在搖籃中,加利福尼亞州聖布魯諾一家人工智慧藥物設計公司Numerate的首席技術官Brandon Allgood表示。如果一種化合物無法通過毒性或吸收性測試,那從一開始就沒有必要製作或測試它。“人工智慧只需要幾毫秒來決定是否排除這種化合物。” Allgood說,在開始利用人工智慧工具研究化學物質宇宙前,他曾學習宇宙學。Numerate今年已與製藥公司達成兩筆交易,其中一筆與位於法國敘雷訥的施維雅公司合作,將人工智慧發現的藥物投入心臟衰竭和心律失常的臨床實驗中。

儘管工業投資快速增長,但計算方法仍有待證明。雖然Reymond的資料庫比其他庫更加龐大,但它僅包括了化學藥物宇宙中微小的一部分(參見“化學藥物宇宙”)。儘管他的資料庫中已包括1660億種化合物,但他仍需要繼續探索,正如一個嘗試數清夜空中所有星星的宇航員才剛剛只數了一個。基於將樣品與蛋白相匹配的篩選需要準確的晶體結構才能得到最好的結果,而生成這些資料需要時間、金錢和經驗。

這些方法同時很難處理動態的蛋白,無法可靠地對候選者的優良性進行排序。從機器學習演算法的角度而言,它們的表現取決於為其提供根基的培訓資料集,當它們遇到與之前見過的分子相似度極低的化合物,演算法的表現便會很糟糕。除此之外,整個程式如同黑箱作業,無法得知機器學習為何預測某個化合物是良好的匹配。

許多計算方法還有一個惱人之處便是常常給出難以在實驗室合成的化合物。化學家不得不費力的想辦法合成候選化合物,可能要花費幾個月甚至更長。即便如此,合成的分子也不能保證有作用。Reymond的方法目前預測化合物活性的準確率僅有5~10%,這意味著化學家不得不辛苦嘗試多達20種化合物來找到其中一種符合期望的。Reymond 表示:“我們探索化學藥物宇宙的瓶頸是敢於合成化合物的能力。”為了解決這個問題,他最近將他的化學物質宇宙縮減到1000萬種易合成,同時仍覆蓋廣泛特徵的分子。

美國麻塞諸塞州Relay Therapeutics公司的首席科學官Mark Murcko認為計算化學家應該少關注新的演算法策略而將注意力放在提高演算法的培訓資料集。他表示:“我所知道的讓一個預測模型變得更準確的好方法之一就是給它更多更好的資料。” Relay和其他公司鼓勵化學家和計算科學家密切合作,合成由人類和演算法共同建議的化合物,同時根據得到的結果來進改善未來的決策。

對於Hopkins,這樣的合作至關重要。電腦科學家曾花費數十年來寫能夠戰勝圍棋大師的程式。在1997年,IBM的深藍擊敗了Garry Kasparov。然而這樣的失敗並不意味著圍棋的結束。相反,Kasparov設置了一場雙人比賽,每隊有一個人類一個人工智慧。Hopkins 表示:“人類和人工智慧一起能勝過任何人,同樣也勝過任何演算法。” 他希望用同樣的方式將資料分析、創造性和常識相結合來改變藥物發現,“我相信我們現在正處在Kasparov與深藍聯合的時刻”。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示