您的位置:首頁>正文

穀歌大腦發佈DeepVariant,用深度學習實現精准基因測序

在許多科學領域, 特別是基因組學領域裡, 重大突破常常歸功於新技術的應用。 例如誕生于1977年的桑格測序法(Sanger sequencing), 是世界上第一個測定人類DNA序列的方法;後來的微陣列晶片技術(microarray technologies)能夠進行大規模全基因組實驗。 新的設備和工具能讓我們深入瞭解基因組, 並將其廣泛應用於醫療、農業和生態環境。

基因組學中最具變革性的新技術之一是高通量測序(HTS), 于21世紀初開始投入商業使用。 利用HTS, 科學家和臨床醫生能夠以較低成本快速、大量地生成測序數據。

人類體內23對染色體可是由30億個堿基對組成的, 而HTS輸出的並不是被分析者完整的基因組序列,

而是大約10億個短序列, 稱為reads。 每個read僅代表100個堿基對, 每個堿基對的錯誤率在0.1%~10%之間。

於是, 將HTS的輸出結果轉化成單一、精確、完整的基因組序列是目前面臨的嚴峻的挑戰, 尤其是在生物醫學領域, 這一問題促成了許多組織的努力。 例如瓶中基因聯盟(GIAB)能夠產生高度可信的基因組, 可用于驗證並作為基準測試。 以及精准FDA社區挑戰賽, 旨在促進創新, 提高基於HTS的基因組測試的品質和準確性。

將測序結果與基準基因序列進行比對, 會發現與基準不同的堿基。 它可能表示一個堿基變體, 也有可能是一個錯誤

近日, 穀歌大腦宣佈了一種名為DeepVariant的深度學習技術, 它可以從HTS序列資料中重建真正的基因組序列,

比以往的方法更準確。 這項成果是穀歌大腦團隊與Verily Life Sciences共同合作兩年多的產物, 將基因組中的碎片重構問題轉化成穀歌擅長的圖像分類問題。

測序片段與基準序列的對比結果。 A:一對染色體上的單核苷酸多態性;B:一條染色體上的堿基缺失;C:兩條染色體上堿基缺失;D:錯誤引起的堿基變異

研究人員首先用GIAB的參考基因組作為樣本, 利用這些基因組多處重複的地方, 將HTS輸出的資料編碼成多通道的訓練樣本, 然後在TensorFlow上訓練圖像分類模型, 從實驗資料中識別真正的基因組序列。 儘管DeepVariant不具備基因組或HTS相關知識, 但不到一年的時間, 它就贏得了PrecisionFDA Truth Challenge中的最高SNP性能獎(Highest SNP Performance)。 到目前為止, 它的錯誤率比之前下降了50%。

穀歌大腦現已發佈開源版DeepVariant,

希望能讓這項技術惠及更多地區。 另外, 他們還與穀歌雲平臺(GCP)合作發佈了工作流。 谷歌大腦的研究人員表示, DeepVariant是第一個將穀歌的計算基礎架構和機器學習應用到基因組中的工具, 也是將谷歌技術應用于醫療保健和其他科學中的一部分。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示