如果你曾經看過《犯罪現場》這樣的罪案劇, 你可能會想起一個場景:法醫通過電腦對數千個DNA片段進行搜索, 從而匹配出犯罪現場和犯罪嫌疑人。 雖然這個過程在現實生活並不像電視劇那樣, 但是主要思路是一樣的。 遺傳學本質上是一門比較科學。 無論你是想確認一名嫌疑犯、一種基因疾病還是一名失散已久的親屬, 都需要將一個基因組與另一個基因組進行比較, 從而在數十億個DNA中發現相似和不同。
雖然確認失蹤人員或者犯罪嫌疑人的過程通常只會涉及到一個人的幾個遺傳片段, 但是像識別某種疾病的基因變異這樣的問題,
本周, 穀歌推出了一款名為DeepVariant的程式, 可以通過深度學習來拼湊一個人的基因組並且更準確地識別出DNA序列中的突變。
這個技術在穀歌中曾經用來識別一張照片是貓還是狗, 在這裡DeepVarient利用了相同的技術解決了DNA分析領域的一個重要問題。 現代DNA測序儀可以執行高通量測序, 讀取出的不是完整的DNA序列, 而是重疊的短片段。 然後將這些片段與另一個基因組進行比較, 從而將它們拼湊在一起,
其實已經有一些工具可以幫助科學家做到這一點。 最廣泛使用的是GATK, 這是一種人工設計的演算法, 可以將統計資料應用到測序機器最常出錯的地方。 然而, DeepVariant利用神經網路技術來構建比以往任何技術都更精確的程式。 去年, 這項技術在FDA大賽中獲得了第一名。
神經網路之所以如此命名, 是因為它們的工作方式有點類似於神經元在大腦中的方式。 每一層網路都逐級處理著更為複雜的工作。 為了利用圖像識別技術來建立一個精確的DNA序列,
由此產生的演算法可以比以往任何系統都更準確地對錯誤進行排查。 最初, 這些圖像僅由三種顏色組成, 或三層資料。 不過, 本周發佈的最新版本包含了7種, 使其可以更加精確地表達。 這個程式目前是作為開源軟體發佈的, 外部研究人員可以使用以及繼續進行程式強化。
DeepVariant絕不是100%準確的。 但它的成功代表了機器學習對基因學的影響。 基因組資料的規模和複雜性是巨大的。
更多精彩內容, 關注鈦媒體微信號(ID:taimeiti), 或者下載鈦媒體App