穀歌研究院在化學發力：應用機器學習技術預測分子性質

最近，機器學習在化學領域的應用有很大進展，特別是化學搜索問題，從藥物篩選、電池設計到OLEDs設計，催化劑的發現。歷史上化學家使用薛定諤方程做數值近似來解決化學檢索問題，如使用密度泛函理論（DFT），然而近似值的計算成本限制了搜索的規模。

為了能夠擴大搜索能力，雷鋒網瞭解到已有幾個研究小組使用DFT生成的訓練資料，創建ML模型來預測化學性質，例如Matthias Rupp等用機器學習模型來預測各種有機分子的原子化能， Jörg Behler 和 Michele Parrinello引入DFT勢能面的一種新的神經網路表徵。在這些工作的基礎之上，穀歌研究院在QM9基準資料集（配有DFT計算的電子，

熱力學和振動性質的分子集合）上應用了各種機器學習方法。

雷鋒網消息，穀歌研究院發佈了兩篇論文，介紹了他們在這一領域的研究，研究工作由Google Brain團隊， Google Accelerated Science團隊， DeepMind和巴塞爾大學合作完成。第一篇論文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》調查了回歸分子和分子表徵的選擇對快速機器學習模型的影響，模型用於構建有機分子的十三個基態電子性質，每個回歸/表徵/性質組合的性能通過學習曲線評估，該曲線描繪近似誤差，以此作為訓練集大小的函數。論文在QM9基準資料集上測試了多種機器學習方法，並集中改進最有希望的深層神經網路模型。

第二篇論文《Neural Message Passing for Quantum Chemistry》描述了一種稱為消息傳遞神經網路（MPNN）的模型族，將其抽象地定義為包含很多對圖形對稱性具有不變性的神經網路模型。

研究團隊在MPNN模型族中開發了新變體，性能明顯優於QM9基準測試的所有基準測試方法，另外某些目標的性能改進了近四倍。

從機器學習的角度來看，分子資料之所以有趣，原因之一是一個分子的自然表徵以原子作為邊界的結點和鍵。能夠利用資料中固有對稱性的模型更容易泛化，這很容易理解，卷積神經網路在圖像識別上之所以成功，一部分原因是模型能夠記住圖像資料中的一些不變性知識，比如把一種圖片中的狗挪到圖片左邊還是一張狗的照片）。圖形對稱性這一固有特徵是機器學習處理圖像資料非常理想的性質，在這領域也有許多有趣的研究，

例如Yujia Li等研究了結構化圖片的特徵學習技巧， David Duvenaud等應用圖像神經網路學習分子指紋資訊， Steven Kearnes等提出一種機器學習模型用於無向圖的學習。儘管這一領域已有所進展，穀歌研究院希望找到化學（和其他）應用模型的最佳版本，並找出文獻中提到的不同模型之間的聯繫。

穀歌研究院提出的MPNN模型提高了QM9資料集任務（預測所有13種化學性質）的最好性能，在這個特定的資料集上，他們的模型可以準確地預測13種性質中的11個，這樣的預測性能已經足夠準確，能對化學家未來的應用有幫助。另外，此模型比使用DFT類比要快30萬倍。但是在MPNN模型走向實際應用之前還有很多工作要做。實際上， MPNN模型必須應用於比QM9資料更多樣化的分子集合（例如數目更大，

變化更大的重原子集合）。當然，即使有了更真實的資料集，模型的泛化性能還是很差。克服以上兩個挑戰需要解決機器學習研究的核心問題，例如泛化。

預測分子性質是一個非常重要的問題，它既是先進的機器學習技術的應用場景，也為機器學習帶來了非常有趣的基礎研究課題。最後，分子性質的預測有助於造福人類的新藥物和材料的設計。谷歌科學家們認為傳播研究成果，幫助其他研究者學習機器學習應用都是及其重要的。

封面圖片來自Chemistry Explained，雷鋒網編譯