推广 热搜: 免费网赚论坛  中国网赚  在家上网赚钱  网赚qq群  如何网赚  网赚任务平台  福缘网赚  外国网赚  网赚博客  酷我网赚 

用于准确反应预测的深度学习框架及其在高通量实验数据上的应用

   日期:2024-04-05 16:37:30     来源:http://www.900614.com/    作者:小编    浏览:93    

摘要

近年来,人工智能(AI)开始给化学合成带来革命性的变化。然而,缺乏合适的化学反应表示方式和反应数据的稀缺性限制了人工智能在反应预测中的广泛应用。在这里,我们引入了一种新的反应表示,GraphRXN,用于反应预测。它利用通用的基于图的神经网络框架,直接以二维反应结构作为输入,对化学反应进行编码。GraphRXN模型通过三个公开的化学反应数据集进行了评估,与其他基线模型相比,得出了相同或更好的结果。为了进一步评估GraphRXN的有效性,我们进行了湿室实验,以生成反应数据。然后在高通量实验数据上构建GraphRXN模型,并在我们的内部数据上获得了不错的精度(R2为0.712)。这突出表明GraphRXN模型可以部署在集成工作流中,该工作流结合了机器人和人工智能技术,用于前向反应预测。

介绍

有机合成是药剂学、化学生物学等生命科学发展的基础[1,2]。几十年来,化学反应的发现都是源于专业知识、经验和机理探索的偶然直觉[3]。然而,专业化学家有时很难预测特定的底物是否确实可以通过期望的反应转化,即使对于一些已经建立的反应[4,5]。在优化反应产率或选择性时,反应因素的微小变化,包括催化剂、温度、配体、溶剂和添加剂,都可能导致结果偏离预期目标。

随着人工智能的发展,人们提出了预测反应结果和反合成路线的计算方法来加速化学研究[6,7,8,9,10,11,12]。计算机辅助化学合成有着悠久的历史。Jorgensen及其同事介绍了计算机辅助有机反应机理评价(Computer Assisted Mechanistic evaluation of Organic Reactions, CAMEO)[13]。这种方法和其他早期方法,包括SOPHIA[14]和Robia[15],试图采用专家启发式来定义可能的机械反应。这些方法的共同之处是难以预测新的化学反应。对于具有足够详细的反应条件数据的特定反应类别,可以将机器学习应用于产率的定量预测[16]。作为人工智能的一个子领域,深度学习技术在过去十年中蓬勃发展,并对反应预测和逆向合成建模产生了巨大影响。对于逆向综合规划,有两种类型的深度学习模型。一种是所谓的基于模板的模型,将反应模板与深度神经网络相结合[17,18,19]。反应模板是编纂化学“规则”的经典方法[20,21,22,23],广泛应用于计算机辅助合成计划[24,25]。相比之下,在不使用任何预定义的反应模板的情况下,使用各种基于深度学习的机器翻译模型直接从数据中学习化学反应,也可以用于综合规划。这被称为基于模板的模型。

为了预测反应结果,经常使用密度泛函理论(DFT)或其他半经验方法[26,27,28,29]计算的基于量子力学(QM)的描述符来表示静电或空间表征。Doyle等[16]利用qm衍生的描述符构建了随机森林模型,该模型对芳烃卤化物与4-甲基苯胺的Buchwald-Hartwig交叉偶联具有较好的预测性能。Sigman等人[30]定义了四个重要的DFT参数来捕捉配体的构象动力学,并将其输入到配体性质与相对自由能相关性的多元回归模型中。Denmark等人[10]生成了一组三维QM描述符,开发了一种基于人工智能的对映体选择性预测模型。将QM描述符应用于建模提供了模型可解释性的优势,但是它通常需要对反应机制有深刻的理解,这可能很难转移到其他反应预测任务中。另一种流行的描述是所谓的反应指纹。Glorius及其同事[31]开发了一种多指纹特征(MFFs)作为分子描述符,通过连接24个不同的指纹,来预测不同实验数据集的对映选择性和产率。虽然观察到良好的结果,但这种方法可能是一个时间和资源密集型的过程,因为单个分子在71,374位的数组中表示。Reymond等[32]报道了一种分子指纹,称为差分反应指纹(differential reaction fingerprint, DRFP),该分子指纹以反应SMILES为输入,通过一系列操作将反应SMILES嵌入到任意二值空间中,进行后续的哈希和折叠,从而进行反应分类和产率预测。虽然反应指纹图谱容易建立,但由于预定义的子结构有限,反应指纹图谱可能会丢失某些化学信息,因此需要一种能够从数据集中学习的特定任务表示。

通用反应描述符问题的一个可能解决方案是将图神经网络(gnn)应用于反应预测任务[33,34]。由于强大的图数据建模能力,gnn最近成为最流行的人工智能方法之一,并在几个任务上取得了显着的预测性能[11,35,36,37]。各种基于图的模型,如图常规网络(GCN)[11,38]、GraphSAGE[39]、图注意网络(GAT)[40]和消息传递神经网络(MPNN)[41],已经被提出通过直接在图结构上应用权重矩阵或使用消息传递和聚合过程迭代更新节点特征来学习整个输入图的分子特性函数。分子被看作是一个图,其中原子被视为节点,键被视为边。节点和边缘特征受到近端特征的影响,这些特征被学习和聚集形成整个分子图的嵌入[41,42]。值得一提的是,除了上述图模型架构外,还采用了变压器神经网络[43]将分子图直接处理为原子和键的集合[44,45]。例如,提出了基于变压器的模型GraphormerMapper[46]来进行反应特征化,这类似于用反应数据学习分子图特征的思想,但基于变压器架构。

在这项工作中,我们提出了一种改进的通信消息传递神经网络(GraphRXN),该网络用于生成反应嵌入以进行反应建模,而无需使用预定义指纹。对于由多个组分组成的化学反应,可以通过将这些组分的嵌入聚合在一起来建立反应特征,并通过密集层神经网络将其与反应输出相关联。

反应预测的另一个主要挑战是高质量数据的获取[47,48]。虽然积累了大量的数据,但文献中对积极结果的偏倚导致了数据集的不平衡。此外,从文献中提取有效的大规模数据需要大量的人为干预。高通量实验(High-throughput experiments, HTE)是一种可以并行进行大量实验的技术[49,50]。HTE可以作为推进人工智能化学的有力工具,因为它能够显著提高实验吞吐量,并确保数据的完整性和一致性。利用该技术,报道了几个高质量的反应数据集[47],包括Buchwald-Hartwig胺化[16,51,52],Suzuki偶联[9,53,54],光氧化还原催化交叉偶联[55]。这些数据集包含成功和失败的反应,这对于建立正向反应预测模型至关重要。三个公共HTE数据集被用作我们方法的概念验证研究,并展示了鼓励结果。为了进一步验证,我们利用内部HTE平台生成了Buchwald-Hartwig交叉耦合反应的数据。然后将GraphRXN方法应用于内部数据集,得到了一个不错的预测模型(R2为0.713),这表明我们的方法可以与反应机器人系统集成进行反应预测。我们期望基于深度学习的方法,如GraphRXN,结合按需数据反应机,可能会推动反应方法学发展的边界[56,57]。

方法

GraphRXN framework

提出了一种深度学习图框架GraphRXN,能够学习反应特征并预测反应性(图1)。

图1
figure 1

GraphRXN的模型体系结构

GraphRXN的输入是反应SMILES,其中每个反应组分(反应物或生成物)由有向分子图表示[58]。对于每个单独的反应图,它通过三个步骤进行学习,包括消息传递、信息更新和读出。所有节点特征()和边缘特征()在消息传递和更新阶段进行传播,算法1:

  1. (a)

    对于步骤k的节点,通过聚合前一步相邻边的隐藏状态得到其中间消息向量,然后将前一步的隐藏状态与其当前消息连接并馈入通信函数,得到当前节点的隐藏状态;

  2. (b)

    对于步长为k的边缘,从起始节点的隐藏状态中减去之前的边缘隐藏状态,得到其中间消息向量,然后将初始边缘状态和加权向量相加,馈入激活函数(),形成当前边缘状态;

  3. (c)

    经过步骤迭代,对相邻边的隐藏状态进行聚合得到消息向量。节点消息向量、当前节点隐藏状态和初始节点信息被输入到一个通信函数中,形成最终的节点嵌入。

  4. (d)

    选择门控循环单元(GRU)作为读出算子,将节点向量聚合成一个图向量。分子特征向量的长度是可调节的(这里设置为300位)。

    figure a

然后通过求和或串联操作(分别称为GraphRXN-sum和GraphRXN-concat)将分子特征向量聚合为一个反应向量。GraphRXN-sum向量的长度设置为300位,GraphRXN-concat是300的数倍(取决于最大反应分量)。以双组分反应(a + B→P)为例,当选择求和运算对a、B、P的特征进行聚合时,反应向量的长度为300bit;当选择串联操作聚合分子特征时,反应向量的长度为900比特。此外,对于一些不适合用图形结构来描述的反应组分,如无机试剂或催化剂,将采用一热包埋的方法进行表征。最后,使用致密层来拟合反应结果,包括反应产率和选择性。

数据准备

如表1所示,总共使用了四个反应数据集来验证我们的GraphRXN模型的性能。其中三个是开源HTE数据集,其中一个是由内部HTE平台生成的(见附加文件1)。

表1 Des反应数据集的描述。数据集1-3是可用的公共数据集,数据集4是我们内部HTE平台生成的

然后用z-score归一化处理原始结果值(包括产量、选择性和比率),其中是所有样本的平均值,是所有样本的标准差。

(1)

每个数据集按80:20的比例分成训练集和测试集。值得一提的是,为了避免过拟合,我们提出了一个验证集(训练集的20%),即当模型在验证集上的性能变得稳定时,训练过程就会停止。从k-fold交叉验证(CV)任务中,我们获得了平均误差,而不是依赖于一个随机分裂。为了进行严格的比较,数据集1-2与Reymond等人[8,59]报道的Yield-BERT研究一致,数据集3与Perera等人[53]报道的研究一致,采用10倍CV。内部数据集采用五倍CV。

英航溶液模型

采用两种先前发表的反应预测方法Yield-BERT[8,59]和DeepReac +[12]作为基线模型进行比较。

  1. (1)

    Yield-BERT是一个基于序列的模型,它采用自然处理架构来预测反应的相关属性,给出基于文本的反应表示,使用编码器转换器模型结合回归层。Yield-BERT的源代码可从https://rxn4chemistry.github.io/rxn_yields/下载。

  2. (2)

    DeepReac +也是一个基于图的模型。在模型架构上,与GraphRXN使用的消息传递神经网络不同,DeepReac +采用了GNN的变体GAT模型作为核心构建块。DeepReac +的源代码可从https://github.com/bm2-lab/DeepReac下载。

为解决python环境的一些不兼容问题,进行了超参数搜索和小修改。其他四个模型的训练细节(包括超参数选择和训练日志)在第2部分的补充材料中进行了补充。

模式e估值

GraphRXN方法和两个基线模型应用于所有四个数据集。在性能测量方面,使用了测试集上的三个评价指标,包括相关系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)。

包括平台

HTE在标准代码下运行,已被用于进行平行实验,以快速筛选反应物或条件阵列,从而产生大量高质量的反应数据[60,61]。我们通过组装各种最先进的自动化工作站/模块开发了一个内部HTE平台。本研究中所有实验均采用HTE进行,包括固体点胶、液体点胶、加热搅拌、反应工作、样品分析和数据分析(图2)。在THE之前,需要进行精细的实验设计[62]。

图2
figure 2

HTE流程的一般工作流程

坚实的调剂

固体样品储存在分配容器中。然后,头顶重量分配单元将目标量的样品从分配容器输送到指定的4ml小瓶中。

液体分配

液体样品储存在统一的瓶子里。然后液体处理机器人将目标体积的样品以编程的方式转移到指定的4ml小瓶中。将固体和液体样品分装在4 mL的小瓶中,再次使用液体处理机器人制作相应的原液。所有原液用涡流混合器充分混合。将原液转移到96孔铝块的指定玻璃管中,使用液体处理机器人进行反应设置。

加热和搅拌

在预先设定的温度和时间下,将96孔铝块放置在轨道搅拌器上。

反应处理:反应停止冷却后,用移液工作站分批处理反应混合物,包括淬火、稀释、过滤。96孔板制备样品进行UPLC-MS分析。

样品分析

样品依次进样至UPLC-MS进行预期的物质测定和定量。

数据分析

UPLC-MS生成的原始数据被输入到Elsci开发的分析软件Peaksel[63]中,该软件能够执行批级集成,为我们呈现目标物质的紫外响应区域。

实验准备

本研究采用Buchwald-Hartwig偶联反应作为检测反应,在内部数据集上进一步评价GraphRXN作为进一步验证(图3)。

图3
figure 3

反应方案和底物范围

在标准条件下,我们以t-BuXPhos-Pd-G3为催化剂,7-甲基-1,5,7-三氮杂环[4.4.0]十二-5-烯(MTBD)为碱,DMSO为溶剂(图3a)。首先,与MTBD搭配的钯预催化剂t-BuXPhos-Pd-G3对伯胺具有良好的吸附性能[64,65,66]。其次,催化剂和碱是DMSO可溶的,这将促进HTE过程[67,68]。

底物选择了一系列邻位基、间位基和对取代基,包括供电子基和吸电子基、芳基溴和芳基nh2(图3b)。总共使用了50种伯胺(26种Ph-NH2, 24种Py-NH2)和48种溴(24种Ph-Br, 24种Py-Br)来生成我们的数据集(见附加文件2:图2)。S1-S2)。

HTE平台实验工作流程

在本研究中,所有反应均在0.016 mmol尺度下在96孔铝块中使用HTE平台进行。为了进行反应设置,所有机器人都被嵌入一个充满氮气的手套箱中。将96孔铝块在N2条件下密封,然后在预设参数为850转/分、65℃的条件下进行轨道搅拌。16 h后,96孔铝块冷却至室温。在HTE平台上共成功进行了2127次反应(详细的HTE布局见补充材料1.4部分)。

每个玻璃管加入0.0625当量的4,4′-二叔丁基-1,1′-联苯作为内标(IS)。然后将反应溶液转移到滤板上,滤液由96孔板收集。用UPLC-MS对样品板进行分析。用Peaksel法测定了产物和IS的紫外响应。根据下式计算产物对IS的紫外响应比(),其中为目标产物在254 nm波长处的响应面积,为IS在254 nm波长处的响应面积,为常数(0.0625 eq.),表示100%理论产率下IS与产物的摩尔比:

(2)

在数据分析过程中,569个异常光谱反应数据被丢弃。最终得到1558个反应数据。

有关实验的更多细节,请参见补充资料中的第1部分。

目录

摘要 介绍 方法 结果 结论 数据和材料的可用性 参考文献 致谢 作者信息 道德声明 补充信息 搜索 导航 #####

结果

公共数据集上的性能

在3个公开数据集上构建了Graph-concat、Graph-sum、Yield-BERT和DeepReac + 4个模型。数据集1和2是偶联反应的反应产率集合,而数据集3是不对称反应的立体选择性集合。表2列出了在整个十倍CV过程中各自测试集的平均R2、MAE和RMSE值。

表2模型在公共数据集1-3上的性能比较。R的值2, MAE, RMSE是指折叠间的均值和标准差

对于数据集1,GraphRXN-concat模型的性能(R2为0.951)与基线方法Yield-BERT (R2为0.951)相似,但优于GraphRXN-sum (R2为0.937)和DeepReact + (R2为0.922)模型。对于数据集2,GraphRXN-concat (R2为0.844)和GraphRXN-sum (R2为0.838)都优于Yield-BERT (R2为0.815)和DeepReact + (R2为0.827)方法。对于数据集3,GraphRXN-concat的R2为0.892,优于GraphRXN-sum(0.881)、Yield-BERT(0.886)和DeepReac +(0.853)。在这三个指标中,我们认为MAE对化学家更有意义,因为它给出了观测值和预测值之间的可能误差。MAE/RMSE可以更好地作为化学家决定是否进行实验的参考值。我们的GraphRXN-concat模型给出了比Yield-BERT和DeepReac +更好的MAE和RMSE值,这表明GraphRXN模型可以提供与基线模型相当或略好的性能。各褶皱模型预测的详细信息见附加文件2:表S6-S8。

不停地结果

本研究进行了湿室实验,最终数据集中收集了1558个数点(见附加文件1)。根据反应物中取代的芳胺/溴化物,将反应分为四组(G1- g4),即二苯胺衍生物(Ph-NH2与Ph-Br反应,G1),苯基吡啶胺衍生物(Ph-NH2与Py-Br反应,G2),苯基吡啶胺衍生物(Py-NH2与Ph-Br反应,G2),苯基吡啶胺衍生物(Py-NH2与Ph-Br反应,G2),苯基吡啶胺衍生物(Py-NH2与Ph-Br反应,G2)。G3)和2,2′-二吡啶酰胺衍生物(Py-NH2和Py-Br, G4之间的反应)。G1组有317个反应点,而G2、G3和G4组分别有419、401和421个反应点。以下是四组的分布,其中浅色代表低值,深色代表高值,取值范围为0 ~ 1(图4)。灰色网格表示反应失败或丢弃数据,数据过滤策略在补充资料1.6部分进行了补充。

图4
figure 4

内部反应数据集分布热图,其中x轴上的前缀“A”代表胺,y轴上的前缀“B”代表溴

对于整个数据集,一半的反应比位于0到0.2的范围内。分布不平衡与低值上的重凝聚,这将是一个具有挑战性的建模任务。其中,G1中有13%的反应比≥0.5,而G2、G3和G4分别只有0.7%、8%和5%,说明HTE中选择的反应条件可能更适合Ph-NH2和Ph-Br之间的反应。

内部HTE数据集上的性能

一个1558个数据点的内部数据集用于建模,并对训练-测试分割进行了不替换的五倍CV。GraphRXN等基线模型的结果如图5所示。与其他基线方法相比,GraphRXN模型在整个数据集上获得了更好的性能(GraphRXN-concat中的R2为0.712,MAE为0.06,RMSE为0.09)。此外,GraphRXN-concat模型在此回归任务上的表现略好于GraphRXN-sum模型。测试集上每个CV折叠的结果见附加文件2:表S9。

图5
figure 5

GraphRXN和其他基线模型在内部HTE数据集上的结果。在测试集上超过五倍CV的评估指标。B测试集绘制了GraphRXN-concat和GraphRXN-sum的五倍CV图

稀缺数据的性能

众所周知,深度学习依赖于大量的数据来发现变量和结果之间的关系,数据稀缺性在某些领域的建模过程中仍然是一个具有挑战性的问题,特别是在反应预测领域。在这里,我们讨论了上述四种深度学习方法在处理稀缺数据时的稳定性。

分别对四组内部数据集(G1-G4)进行了评估,这些数据集的规模小于其他已发表的数据集。GraphRXN等基线模型的性能列于表3,各CV fold在测试集上的结果见附加文件2:表S10-S13。GraphRXN-concat在G2、G3上的性能优于其他型号,但在G1、G4上的性能略差。似乎小数据集上的R2波动较大,例如四组的R2差异较大,而MAE和RMSE的值在四组中都是相似的。结果表明,结构多样性有限的小数据集可能会降低预测精度,而结构多样性较大的数据集可以从更大的反应空间中学习到更好的模型。一般来说,与其他深度学习方法相比,GraphRXN-concat在处理稀缺数据方面表现出优越或同等的性能。

表3在我们内部数据集的四个独立反应组上模型性能的比较。R、MAE、RMSE的值是指折叠间的平均值和标准差

变长图表示

我们的GraphRXN算法可以提供与手头的每个任务相关的可变长度表示。通常,一个好的表示应该是小而密,足以包含下游建模所需的丰富信息[69]。因此,我们在不考虑建模的其他方面的情况下,比较了不同大小的学习特征的模型精度(图6A)。当向量大小从100位上升到900位时,GraphRXN-concat和GraphRXN-sum的结果稳定地保持在0.7点左右。该图指出,向量大小只会引起模型性能的细微变化。此外,GraphRXN-concat在不同的向量大小下仍然提供更高的精度。曲线在300的大小处达到峰值,这可能表明300的数量应该是一个适合在分子水平上表示的大小。附加文件2:表S14补充了评估指标的详细值。

图6
figure 6

A不同向量大小下模型性能的方差。矢量大小范围为100 ~ 900位,其中100位为间隔。B使用串联或求和构建反应向量时的模型性能

反应向量的聚合方法

模型处理对向量的顺序很敏感[69],在其他条件相同的情况下,不同的向量顺序会产生不同的结果。在本研究中,当图表示准备就绪时,采用两种聚合方法对反应向量进行编码。反应载体的串联必须有特定的顺序,例如本研究中我们采用了芳香胺、溴化物和产物的顺序。通过这种方式,我们假设将所有分量的向量加在一起是一种可能的方法,以消除输入顺序的影响。然后,我们在相同的总长度下比较了两种聚合方法(图6B)。当下游模型接管相同长度的反应向量时,GraphRXN-concat除了100位向量无法包含分子的完整信息外,仍然提供更高的精度。对这个问题的解释是,将所有向量加起来可能会削弱比特明智的表示能力,并忽略反应分量之间的关系。根据已有的结果,串联法更适合用于化学反应的表征。

下载原文档:https://link.springer.com/content/pdf/10.1186/s13321-023-00732-w.pdf

文章链接:http://900614.com/news/show-75976.html
 
 
更多>同类资讯

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报