最近, 機器學習在化學領域的應用有很大進展, 特別是化學搜索問題, 從藥物篩選、電池設計到OLEDs設計, 催化劑的發現。 歷史上化學家使用薛定諤方程做數值近似來解決化學檢索問題, 如使用密度泛函理論(DFT), 然而近似值的計算成本限制了搜索的規模。
為了能夠擴大搜索能力, 雷鋒網瞭解到已有幾個研究小組使用DFT生成的訓練資料, 創建ML模型來預測化學性質, 例如Matthias Rupp等用機器學習模型來預測各種有機分子的原子化能, Jörg Behler 和 Michele Parrinello引入DFT勢能面的一種新的神經網路表徵。 在這些工作的基礎之上, 穀歌研究院在QM9基準資料集(配有DFT計算的電子,
雷鋒網消息, 穀歌研究院發佈了兩篇論文, 介紹了他們在這一領域的研究, 研究工作由Google Brain團隊, Google Accelerated Science團隊, DeepMind和巴塞爾大學合作完成。 第一篇論文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》調查了回歸分子和分子表徵的選擇對快速機器學習模型的影響, 模型用於構建有機分子的十三個基態電子性質, 每個回歸/表徵/性質組合的性能通過學習曲線評估, 該曲線描繪近似誤差, 以此作為訓練集大小的函數。 論文在QM9基準資料集上測試了多種機器學習方法, 並集中改進最有希望的深層神經網路模型。
第二篇論文《Neural Message Passing for Quantum Chemistry》描述了一種稱為消息傳遞神經網路(MPNN)的模型族, 將其抽象地定義為包含很多對圖形對稱性具有不變性的神經網路模型。
從機器學習的角度來看, 分子資料之所以有趣, 原因之一是一個分子的自然表徵以原子作為邊界的結點和鍵。 能夠利用資料中固有對稱性的模型更容易泛化, 這很容易理解, 卷積神經網路在圖像識別上之所以成功, 一部分原因是模型能夠記住圖像資料中的一些不變性知識, 比如把一種圖片中的狗挪到圖片左邊還是一張狗的照片)。 圖形對稱性這一固有特徵是機器學習處理圖像資料非常理想的性質, 在這領域也有許多有趣的研究,
穀歌研究院提出的MPNN模型提高了QM9資料集任務(預測所有13種化學性質)的最好性能, 在這個特定的資料集上, 他們的模型可以準確地預測13種性質中的11個, 這樣的預測性能已經足夠準確, 能對化學家未來的應用有幫助。 另外, 此模型比使用DFT類比要快30萬倍。 但是在MPNN模型走向實際應用之前還有很多工作要做。 實際上, MPNN模型必須應用於比QM9資料更多樣化的分子集合(例如數目更大,
預測分子性質是一個非常重要的問題, 它既是先進的機器學習技術的應用場景, 也為機器學習帶來了非常有趣的基礎研究課題。 最後, 分子性質的預測有助於造福人類的新藥物和材料的設計。 谷歌科學家們認為傳播研究成果, 幫助其他研究者學習機器學習應用都是及其重要的。
封面圖片來自Chemistry Explained, 雷鋒網編譯