在許多科學領域, 特別是基因組學領域裡, 重大突破常常歸功於新技術的應用。 例如誕生于1977年的桑格測序法(Sanger sequencing), 是世界上第一個測定人類DNA序列的方法;後來的微陣列晶片技術(microarray technologies)能夠進行大規模全基因組實驗。 新的設備和工具能讓我們深入瞭解基因組, 並將其廣泛應用於醫療、農業和生態環境。
基因組學中最具變革性的新技術之一是高通量測序(HTS), 于21世紀初開始投入商業使用。 利用HTS, 科學家和臨床醫生能夠以較低成本快速、大量地生成測序數據。
人類體內23對染色體可是由30億個堿基對組成的, 而HTS輸出的並不是被分析者完整的基因組序列,
於是, 將HTS的輸出結果轉化成單一、精確、完整的基因組序列是目前面臨的嚴峻的挑戰, 尤其是在生物醫學領域, 這一問題促成了許多組織的努力。 例如瓶中基因聯盟(GIAB)能夠產生高度可信的基因組, 可用于驗證並作為基準測試。 以及精准FDA社區挑戰賽, 旨在促進創新, 提高基於HTS的基因組測試的品質和準確性。
將測序結果與基準基因序列進行比對, 會發現與基準不同的堿基。 它可能表示一個堿基變體, 也有可能是一個錯誤
近日, 穀歌大腦宣佈了一種名為DeepVariant的深度學習技術, 它可以從HTS序列資料中重建真正的基因組序列,
測序片段與基準序列的對比結果。 A:一對染色體上的單核苷酸多態性;B:一條染色體上的堿基缺失;C:兩條染色體上堿基缺失;D:錯誤引起的堿基變異
研究人員首先用GIAB的參考基因組作為樣本, 利用這些基因組多處重複的地方, 將HTS輸出的資料編碼成多通道的訓練樣本, 然後在TensorFlow上訓練圖像分類模型, 從實驗資料中識別真正的基因組序列。 儘管DeepVariant不具備基因組或HTS相關知識, 但不到一年的時間, 它就贏得了PrecisionFDA Truth Challenge中的最高SNP性能獎(Highest SNP Performance)。 到目前為止, 它的錯誤率比之前下降了50%。
穀歌大腦現已發佈開源版DeepVariant,