穀歌發佈了一款AI工具，可以説明基因組資料解讀

如果你曾經看過《犯罪現場》這樣的罪案劇，你可能會想起一個場景：法醫通過電腦對數千個DNA片段進行搜索，從而匹配出犯罪現場和犯罪嫌疑人。雖然這個過程在現實生活並不像電視劇那樣，但是主要思路是一樣的。遺傳學本質上是一門比較科學。無論你是想確認一名嫌疑犯、一種基因疾病還是一名失散已久的親屬，都需要將一個基因組與另一個基因組進行比較，從而在數十億個DNA中發現相似和不同。

雖然確認失蹤人員或者犯罪嫌疑人的過程通常只會涉及到一個人的幾個遺傳片段，但是像識別某種疾病的基因變異這樣的問題，

往往需要大量的資料處理。儘管目前很多前沿的研究都是為了幫助科學家們做到這一點，但對所有這些資料都做到充分的定義還面臨著巨大的挑戰。這也正是人工智慧所要解決的問題。

本周，穀歌推出了一款名為DeepVariant的程式，可以通過深度學習來拼湊一個人的基因組並且更準確地識別出DNA序列中的突變。

這個技術在穀歌中曾經用來識別一張照片是貓還是狗，在這裡DeepVarient利用了相同的技術解決了DNA分析領域的一個重要問題。現代DNA測序儀可以執行高通量測序，讀取出的不是完整的DNA序列，而是重疊的短片段。然後將這些片段與另一個基因組進行比較，從而將它們拼湊在一起，

進行變異識別。但是這項技術很容易出錯，科學家也很難排查出這些錯誤以及小突變。這些小突變非常重要。它們可以提供重要的見解，比如說，疾病的根本原因。區分哪些堿基對是錯誤的，哪些是正確的，這被稱為“變數調用”。

其實已經有一些工具可以幫助科學家做到這一點。最廣泛使用的是GATK，這是一種人工設計的演算法，可以將統計資料應用到測序機器最常出錯的地方。然而， DeepVariant利用神經網路技術來構建比以往任何技術都更精確的程式。去年，這項技術在FDA大賽中獲得了第一名。

神經網路之所以如此命名，是因為它們的工作方式有點類似於神經元在大腦中的方式。每一層網路都逐級處理著更為複雜的工作。為了利用圖像識別技術來建立一個精確的DNA序列，

穀歌團隊將DNA測序數據轉化為了一個圖像。例如，構成遺傳密碼的As、Ts、c和Gs，就會以紅色的形式出現。研究人員隨後對數百萬份基因組測序和高通量讀取技術進行了研究，並教會了這個程式哪些東西更重要，哪些可以忽略。

由此產生的演算法可以比以往任何系統都更準確地對錯誤進行排查。最初，這些圖像僅由三種顏色組成，或三層資料。不過，本周發佈的最新版本包含了7種，使其可以更加精確地表達。這個程式目前是作為開源軟體發佈的，外部研究人員可以使用以及繼續進行程式強化。

DeepVariant絕不是100%準確的。但它的成功代表了機器學習對基因學的影響。基因組資料的規模和複雜性是巨大的。

機器可能正是我們需要弄明白的東西。

更多精彩內容，關注鈦媒體微信號（ID：taimeiti），或者下載鈦媒體App