首頁歷史 > 正文

預測有機反應:從機制到機器學習

2021-10-19由 ScienceAI 發表于 歷史

編譯/凱霞

預測有機反應:從機制到機器學習

對化學反應的探索和化學科學本身一樣古老。在過去的一個世紀中,計算和實驗方法共同發展。隨著化學反應模型的建立中引入越來越多的資料,機械元件可以被減少,最終達到「大資料」的應用。

最近,來自阿斯利康公司和烏普薩拉大學的研究人員對有機反應由機制到機器學習進行了綜述,以題為「Organic reactivity from mechanism to machine learning」的論文發表在Nature Reviews Chemistry 上。

預測有機反應:從機制到機器學習

Kjell Jorner說:「在這裡,我們從機械的角度概述了機器學習在化學反應領域的最新應用。從量子力學方法如何解決反應性問題的概述開始,我們討論了利用機器學習的方法,以更快的方法來增強或取代基於量子的建模方法。」

預測有機反應:從機制到機器學習

圖示:化學反應性的模擬方法。(來源:nature)

量子化學的機械建模(Mechanistic modelling by quantum chemistry)

量子力學(QM)計算可用於機制假設的研究,以獲得分子組合的勢能/自由能。利用波函數理論(WFT)計算成本可能太高;使用密度泛函理論(DFT)相對更實惠;而過渡態(TS)理論並不適用於所有的反應型別。

常用一定反應條件下(如時間和溫度)的反應產率來衡量化學反應活性。然而,與所研究的反應無關的現象,如原料的降解,不可能透過機理研究來解決先天性問題。隨著自動化和高通量技術的發展,機器學習(ML)或許可以解決這個問題?

目前,對替代QM計算更快的方法已經做了大量研究。半經驗QM方法使用WFT(或DFT),忽略QM中一些計算成本較高的部分,將其替換為針對完整QM資料或實驗調整的引數。從這個角度來看,半經驗QM方法可以被看作是簡單的ML模型。半經驗QM方法比WFT或DFT快幾個數量級,但通常精度較低,因此在預測實驗中用途有限, 但可以為ML方法提供基礎資料。

從量子力學匯出的模型(Models derived from quantum mechanics)

分子力學方法作為QM計算的一種更快的替代方法,出現於上個世紀中葉。20世紀90年代,哈格勒(Hagler)和他的同事們應用了現在被稱為遷移學習的方法來獲得更高精度的力場。因此,分子力學方法經常被用作基於量子力學方法的預篩選工具,以尋找合適的柔性系統的低能量構象。

為了用更快的方法取代DFT方法,出現了分子能的精確神經網路工程(ANAKIN-ME,簡稱ANI)。在DFT計算上訓練了一個深度神經網路來產生有機分子的通用電位。首先,建立一個大型的DFT資料庫,包含超過50, 000個小有機分子的數百萬個非平衡構象。與DFT結果相比,神經網路電位在較大的分子上具有較好的泛化效能,均方根誤差低至0。6 kcal/mol。隨後,該模型透過主動學習得到擴充套件,越來越多的資料可以用於訓練,得到的模型有可能取代DFT計算,這意味著ANI可以在很短的時間內達到類似的精度。

為反應性預測量身定製其他基於量子力學的模型,利用圖卷積神經網路直接預測活化能,而不是總能量——這是ANI的目標。

ML-增強型QM反應路徑模型 (ML-augmented QM reaction path models)

通常,ML-QM反應路徑模型針對從2D結構獲得的量子化學計算的描述符和其他物理化學分子或原子特性訓練ML模型。ML-QM模型通常使用較少的定製特徵。該模型用於預測反應速率、活化勢壘和迴歸的相對能量,或分類的誘變性和選擇性,關注特定的反應型別。

在製藥行業中,反應性預測的一種特殊形式是識別代謝位點。透過DFT計算的一些代表性片段的活化能是SMARTCyp方法集的基礎。預測的基礎是DFT計算和ML透過原子描述符的增強。在計算出的ΔE‡值上增加原子可及性功能提高了代謝分類模型網站的效能。

QM-ML預測的另一個目標是區域選擇性。研究人員透過在半經驗量子力學中加入六個原子特徵來預測親電性芳香取代的位置——計算中間體的相對能量,在預測反應位點時達到了93%的準確度。在隨機森林模型中使用物理有機特徵研究了雜環C-H官能團的區域選擇性,以預測ΔG‡,研究表明,在20個分子的實驗測試集上有19個案例的區域選擇性定性一致。

反應物描述模型(Reactant descriptor models)

通常,反應物描述符是從QM計算中得出的,並描述了基態反應組分,而不是反應路徑或其它部分。反應物線性模型在研究反應機理和研究反應組分對反應結果的影響方面具有重要價值。

理想情況下,從特定反應衍生的模型結果還應該可以轉移到其他反應組分甚至其他反應型別。異芳烴的Minisci型反應中的對映體電性就是可轉移模型的一個例子。

在預測反應收率時,許多不相關的因素使反應的建模具有挑戰性。除了足以形成產物的反應性外,潛在的競爭性反應機理和催化劑中毒還會強烈影響反應的結果。最近的一項研究提出了一個基於DFT資料訓練的圖神經網路來預測碳氫鍵解離。與DFT訓練資料相比,該模型的均方根誤差(RMSE)為2。43 kJ/ mol。

基於指紋的模型(Fingerprint-based models)

分子指紋是化學反應中最古老的機器可讀表示形式之一,可以新增、連線或減去反應物和產物;試劑/溶劑也可以以指紋、分類變數或物理描述符的形式引入。可以說,在反應預測中最常見的指紋是差異指紋。

同樣,神經網路進行反應預測的輸入也用到反映指紋。儘管指紋是最傳統的分子表徵之一,但隨著深度學習的興起,人們對指紋的興趣重新燃起。神經圖指紋已被用於構建反應指紋來預測教科書中有機反應的結果。

另一種表示化學反應的方法是反應縮合圖(CGR)。CGR還用於計算子結構片段描述符,該描述符用於化學反應相似度搜索。計算機設計和資料分析(ISIDA)指紋型別描述符可以從CGR計算得出並用作為ML的輸入向量。CGR-ISIDA方法的潛在缺點:對於原始資料集中不存在的片段的反應預測,需要從頭生成所有ISIDA描述符,並對模型進行再訓練。

一般反應模型(General reactivity models)

以上綜述的模型是為一種特定的反應型別或為一個小的集合專門建立的演算法。但是,該領域正朝著開發新的資料表示和演算法(包含成千上萬的化學轉化,並導致一般的反應預測方法)的方向發展。

為了擺脫人工編碼,在化學反應資料的自動檢索方面投入了大量的精力。這些化學反應資料可以用來訓練神經網路,以識別反應物中的分子模式,並以完全由資料驅動的方式學習適當的反應型別。

對自動化學資料提取程式的分析引起了許多關注。透過訓練深度神經網路來識別基本化學反應並按順序組合它們。反應物由它們的物理化學性質和圖拓撲描述符(原子及其連通性)來表示,所得到的演算法名為「react predictor」,大大減少了神經網路的「黑盒應用」。

為了避免使用模板和原子對映工具,需要對資料表示方式進行徹底的改變。這種變化來自自然語言處理領域。在sequence-to-sequence models(從序列到序列的轉換模型框架)基礎上,發展了Molecular Transformer模型,該模型可達到90%的準確性。

儘管反應性預測取得了重大進展,但仍面臨許多挑戰。因此,需要高度的自動化和智慧演算法。

結論與展望

深度學習模型在替代TSs的全原子模型上很有前途,它可以極大地簡化和加快預測分子幾何結構甚至TSs的機械計算。

利用諸如隨機森林之類的方法對有限的實驗資料擬合單反應型模型變得流行起來。

越來越多的資訊豐富的分子和反應指紋可用於訓練模型,這比任何包含QM計算的方法都要快。

通用模型有兩種模型,一種是結合了人類對反應型別的知識,另一種是隻從手邊的資料中學習。

目前,成功的反應預測模型並不學習反應原理,而只是識別出與已知案例的相似之處。

Kjell Jorner表示:「在不久的將來,基於深度學習的快速方法有可能變得更加量化。在這種背景下,開放反應資料庫是一個非常有前途的倡議,以收集來自學術界和工業界的反應資料。目前,反應預測模型尚未展示出超越已知反應型別內底物新組合的能力,最終目標是預測實驗室中尚未發現的新反應。儘管要實現這一目標還有許多工作要做,但我們希望不久將實現這一目標。」

論文連結:https://www。nature。com/articles/s41570-021-00260-x

頂部