穀歌大腦發佈DeepVariant，用深度學習實現精准基因測序

在許多科學領域，特別是基因組學領域裡，重大突破常常歸功於新技術的應用。例如誕生于1977年的桑格測序法（Sanger sequencing），是世界上第一個測定人類DNA序列的方法；後來的微陣列晶片技術（microarray technologies）能夠進行大規模全基因組實驗。新的設備和工具能讓我們深入瞭解基因組，並將其廣泛應用於醫療、農業和生態環境。

基因組學中最具變革性的新技術之一是高通量測序（HTS），于21世紀初開始投入商業使用。利用HTS，科學家和臨床醫生能夠以較低成本快速、大量地生成測序數據。

人類體內23對染色體可是由30億個堿基對組成的，而HTS輸出的並不是被分析者完整的基因組序列，

而是大約10億個短序列，稱為reads。每個read僅代表100個堿基對，每個堿基對的錯誤率在0.1%~10%之間。

於是，將HTS的輸出結果轉化成單一、精確、完整的基因組序列是目前面臨的嚴峻的挑戰，尤其是在生物醫學領域，這一問題促成了許多組織的努力。例如瓶中基因聯盟（GIAB）能夠產生高度可信的基因組，可用于驗證並作為基準測試。以及精准FDA社區挑戰賽，旨在促進創新，提高基於HTS的基因組測試的品質和準確性。

將測序結果與基準基因序列進行比對，會發現與基準不同的堿基。它可能表示一個堿基變體，也有可能是一個錯誤

近日，穀歌大腦宣佈了一種名為DeepVariant的深度學習技術，它可以從HTS序列資料中重建真正的基因組序列，

比以往的方法更準確。這項成果是穀歌大腦團隊與Verily Life Sciences共同合作兩年多的產物，將基因組中的碎片重構問題轉化成穀歌擅長的圖像分類問題。

測序片段與基準序列的對比結果。 A：一對染色體上的單核苷酸多態性；B：一條染色體上的堿基缺失；C：兩條染色體上堿基缺失；D：錯誤引起的堿基變異

研究人員首先用GIAB的參考基因組作為樣本，利用這些基因組多處重複的地方，將HTS輸出的資料編碼成多通道的訓練樣本，然後在TensorFlow上訓練圖像分類模型，從實驗資料中識別真正的基因組序列。儘管DeepVariant不具備基因組或HTS相關知識，但不到一年的時間，它就贏得了PrecisionFDA Truth Challenge中的最高SNP性能獎（Highest SNP Performance）。到目前為止，它的錯誤率比之前下降了50%。

穀歌大腦現已發佈開源版DeepVariant，

希望能讓這項技術惠及更多地區。另外，他們還與穀歌雲平臺（GCP）合作發佈了工作流。谷歌大腦的研究人員表示， DeepVariant是第一個將穀歌的計算基礎架構和機器學習應用到基因組中的工具，也是將谷歌技術應用于醫療保健和其他科學中的一部分。