Angew.Chem.|用机器学习预测杂环自由基C−H官能化的区域选择性

  • A+

生化Vai计

自由基CH键官能化为杂环化合物的精细化提供了一种通用的方法。这种转换的合成设计在很大程度上依赖于对区域选择性的认识,而一种量化而有效的区域选择性预测方法仍然是难以捉摸的。作者报告了使用机器学习模型从孤立反应物的计算性质来预测过渡态势垒的可行性。这使得对杂环的自由基CH键官能化进行快速可靠的区域选择性预测成为可能。具有物理有机特征的随机森林模型在样本外测试集上获得了94.2%的位点准确率和89.9%的选择性准确率。通过将机器学习结果与添加的取代基、杂芳烃骨架和实验观察结果进行比较,进一步验证了预测性能。这项工作表明,基于机理的计算统计和机器学习模型的结合可以作为一种有用的策略来预测有机变换的选择性。



01 介绍

————

芳烃C−H官能化由于芳环在生物活性化合物和功能材料中的普遍存在而受到学术界和工业界的广泛关注。经典的Minisci反应为通过基于自由基的C−H官能化来精细化芳烃提供了一种通用的方法,但由于人们普遍认为自由基加成中存在不可预测的区域选择性,这一方法的应用受到了阻碍。2011年,Baran和他的同事发现烷基亚硫酸盐可以作为烷基自由基的前体,在温和的条件下实现了一系列强大的芳环自由基官能化方法(Fig 1A)。


用烷基亚磺酸盐对芳烃C−H进行官能化的成功揭示了一个关键事实,即芳香杂环的固有反应性在某些情况下可以导致区域选择性的特殊控制。基于杂环的天然反应性、π共轭取代基和自由基的电子性质的影响,Baran,Blackmond和同事开发了一个预测杂环自由基C−H功能化区域选择性的经验指南(Fig 1B)。这种经验方法为所选择的杂环提供了有用的定性预测,而一般的和定量的区域选择性预测仍然是具有挑战性的,特别是考虑到广泛的杂环、取代模式以及空间和电子上不同的自由基。


最近,使用机器学习(ML)和实验统计对有机转化的性能预测取得了重大进展。Doyle和同事揭示了ML在反应优化和合成反应预测中的潜力。Grzybowski等人的研究成果。发现了物理相关描述符在反应选择性和分子热力学性质的ML预测中的重要性,以及逆合成分析中化学知识的转化。Denmark和他的同事在不对称催化的预测模型中开发了通用训练集的策略。Jensen等人利用神经网络模型实现了对反应结果和有机转化条件的预测。此外,Sigman和他的同事在综合相关的催化剂设计中建立了强大的多维统计分析。

上述突破启发了作者利用ML策略建立杂环自由基C−H功能化的区域选择性预测。除了这些基于实验统计的ML预测之外,作者设想ML模型可以将过渡态势垒与中间体或反应物的计算性质联系起来。这将使用基于机理的计算统计来实现反应性和选择性的ML预测。作者报道了ML回归模型的发展,该模型可以在没有实验输入的情况下实现杂环的自由基C−H功能化的区域选择性预测(Fig 1C)。训练后的随机森林模型在少量DFT计算的物理有机特征中,在样本外测试集中获得了94.2%的位点准确率和89.9%的选择性准确率。进一步与添加取代基、杂芳烃骨架和实验结果的比较,验证了计算预测方法的有效性。



02 结果和讨论

———————


Fig 2A描述了ML方法的设计工作流。首先开发了一个python脚本来自动实现DFT计算统计数据的生成、收集和分析。对如此大量的数据进行数据预处理,将特征归一化为标准分布。随后的性能评估从候选算法中选出了所需的ML模型。通过特征选择过程进一步降低了所选模型的复杂度,最终得到了具有应用价值的ML模型。最终ML模型的特征排序允许解释选择性预测的控制因素。


样本空间对ML模型的泛化能力至关重要。仔细选择了广泛的芳烃骨架、取代模式和自由基来建立计算统计(Fig 2B)。所选择的芳烃骨架覆盖了有机化学中一般的五元环和六元环杂环,包括中性和质子化状态。除了母体芳香族化合物外,初步考虑了在所有可能的位置用氰基或甲氧基取代的单取代。这两个取代基使得ML模型可以映射芳烃电子性质的变化,进一步对取代基模式的泛化能力的测试确定了在模型训练中包括CF3和tBU取代基的必要性。初始模型训练中计算的芳香族化合物总数为109个,导致自由基C−H官能化的262个不同位置。对于自由基的化学空间,包括了可以从商业上获得的烷基亚磺酸盐中生成的自由基,以及相关实验研究中出现的一些额外的情况。所设计的样本空间展示了3406个自由基C−H官能化反应和5174个区域异构体竞争。


为了训练ML模型,执行了DFT计算以提供计算统计。先前的实验和计算研究表明,自由基加成步骤是不可逆的,并决定了整个自由基C−H功能化的区域选择性。这项工作为计算提供了关键的力学基础,并通过比较竞争自由基加成的自由能垒计算了样本空间中的区域选择性(Fig 2C)。


ML模型的训练应用了一个广泛使用的分子特征库,它既描述了自由基加成形成C−C键的局部原子性质,也描述了芳烃和自由基的整体分子性质。局部特征包括原子中心对称函数 (ACSF)和原子位置平滑重叠 (SOAP),全局特征包括键袋 (Bob)和分子指纹 (FP)。鉴于GrzyBowski最近发现,物理相关特征在Diels-Alder反应和C−H键的pKa的选择性的ML预测中是有用的,作者还选择了一组具有物理有机基础的化学描述符(PhysOrg,Fig 2D2E)。这50个特征的集合允许基于前线分子轨道(FMO)能量、原子电荷、埋藏体积、NICS值以及Wiberg键指数 (Fig 2F)来描述电子效应和空间效应。



作者对分子特征和ML模型的组合进行了系统的评估。Table 1总结了使用五重交叉验证和随机分片的回归性能。在大多数测试的ML模型中,SOAP局部特征通常优于ACSF局部特征。全局特征(BOB或FP)的加入可以进一步有限地改善回归。这导致了SOAP/FP特性和XGBoost(Xgb)回归的最佳组合,R2为0.968。值得注意的是,基于树的ML回归模型,决策树(DTree)、随机森林(RF)和XGB通常比其他ML模型具有更好的性能,这可能与样本空间的大小和选择性预测的性质有关。除了这些需要较大特征空间的已知功能(Table 1)外,发现使用PhysOrg功能可以在显著较小的特征空间下获得具有竞争力的性能。采用RF模型的PhysOrg局部特征仅用35个描述符,在0.949 R2的条件下实现了很好的回归。PhysOrg全局功能的添加进一步将R2改进到0.963。这表明PhysOrg特征在决定选择性的信息中高度浓缩,这使得仅用少数描述符就可以预测区域选择性。


接下来,作者评估了有希望的组合的关键方向,即使用SOAP/FP特性的XGB模型和使用PhysOrg特性的RF模型。SOAP/FP-XGB模型只需要芳烃和自由基反应物的几何坐标,如果理论水平较低的几何构型适用,这就为高通量虚拟筛选提供了可能性。这促使作者进一步研究了SOAP/FP-XGB模型中的三个几何层次:MMFF94力场、PM7半经验理论和B3LYP/6-311+G(2d,p)。所有三个SOAP/FP-XGB模型都提供了令人满意的回归性能(Fig 3A3C)。位置精度(预测两个位置之间正确反应位置的机会)和选择性精度(正确确定选择性是高、低还是不显著的机会)都高于90%。SOAP/FP(MMFF94)-XGB模型(Fig 3C)的性能令人鼓舞,因为它表明SOAP功能不一定需要计算昂贵的几何来实现所需的反应性能ML预测,这对于高通量筛选目的至关重要。

对于PhysOrg-RF模型,通过选择与区域选择性预测最相关的关键特征,应用特征选择技术进一步降低了模型的复杂度。这可以提高其泛化能力,而不会危及总体精度。使用递归特征消除与交叉验证(RFECV)确定原始50个特征中的32个为最佳子集,这最终确定了RF模型设置。PhysOrg-RF模型的回归性能如Fig 3D所示,位点准确率为94.2%,选择性准确率为89.9%。除了较高的描述能力外,物理有机描述符还提供了PhysOrg-RF模型的可解释性。这些描述符的特征排序可以提供区域选择性控制的机理洞察力,就像Doyle和同事对C−N交叉偶联反应的ML预测一样。PhysOrg-RF模型中所需特征的计算可以很容易地在任何常见的量子化学软件包中实现,在现代PC中,芳烃和自由基的相关变换通常需要几分钟的时间。


与上述区域异构体自由基加成的ML能垒差异(ΔΔG)训练相比,绝对能垒(ΔG)的ML训练以及随后使用ML预测的障碍进行区域选择性预测的性能较差。以PhysOrg-RF模型为例,通过对ΔG的ML训练可以达到满意的性能,R2为0.939,MAE为0.79 kcal/mol(Fig 4A)。然而,将这些ML预测的ΔG转移到相应的ΔΔG显示出明显的精度降低(Fig 4BFig 3D相比)。位点准确率为87.1%,选择性准确率为80.1%。这表明,定制目标性质(反应性、化学选择性、区域选择性或对映体选择性)将有利于反应性能的ML预测,而不是建立能垒回归的ML模型并将该模型应用于各种相关的选择性预测。


为了进一步评估开发的PhysOrg-RF和SOAP/FP(MMFF94)-XGB模型在目标区域选择性挑战中的泛化能力,特别是在化合物的“看不见”的类别中,作者在取代基、芳烃骨架和实验实例的另外三个数据集中测试了这两个模型(Fig 5)。Fig 5A包括在芳烃的自由基C-H官能化中相容的10个典型取代基的ML预测的ΔΔGs的MAE,与CF3自由基C−H官能化具有代表性的取代杂芳烃的DFT计算的区域选择性相比。原始数据集中存在三个取代基(H,CN,OMe)(Fig 2),它们具有预期的一致性能。另外7个取代基表现出较高的预测误差,尤其是CH3、tBU、Cl和CF3取代基表现出惊人的性能(Fig 5A)。这表明原始数据集没有对取代基变异的化学空间进行彻底的映射,从而限制了该维的泛化能力。H,OMe,CN是能够描述共轭电子效应的取代基,而诱导效应(CF3,Cl)和极端空间效应(tBU)没有得到很好的描述。带有CH3的问题可能是由于原始数据集中缺少烷基取代所致。

考虑到这些限制,对CF3和tBU取代的情况下的过渡态和反应物进行了额外的DFT计算,以将数据集扩展到9438个区域异构体竞争。这种面向目标的新数据纳入确实提高了PhysOrg-RF模型的性能,导致了对被测试取代基的一致预测能力(Fig 5A)。物理有机描述符中所蕴含的化学知识特别适合这种迭代改进,PhysOrg-RF模型的用户反馈将成为不断提高其预测能力的强大引擎。对于SOAP/FP(MMFF94)-XGB模型,包括CF3和tBU取代基的新数据并没有改善性能(Fig 5A)。这再次强调了几十个物理有机描述符与数千个SOAP和FP描述符在功能维度和性质上的鲜明对比。


对杂芳烃支架的评价和实验实例也证实了PhysOrg-RF模型的泛化能力。对于18个没有出现在数据集中的芳烃骨架,通过扩展数据集训练的更新的PhysOrg-RF模型发现了令人满意的CF3自由基功能化的区域选择性预测(Fig 5B)。15个杂芳烃具有令人满意的预测,这些预测的代表性实例包括在Fig 5B中。对于Baran报告中的20个实验示例,PhysOrg-RF模型也为大多数情况提供了所需的预测(Fig 5C)。相比之下,相当多使用SOAP/FP(MMFF94)XGB模型的预测并不令人满意(Fig 5B5C)。这提醒了所开发的SOAP/FP(MMFF94)-XGB模型的泛化能力有限。与PhysOrg描述符(在特征选择之后为32个描述符)不同,SOAP(15876个描述符)和FP(1358个描述符)的大特征空间将需要大得多的训练集来匹配特征空间并支持期望的泛化能力。因此,PhysOrg-RF模型是预测靶区选择性的推荐模型。使用基于计算统计的ML策略和物理有机描述符的区域选择性预测可以转化为作者目前正在研究的有机转化的额外选择性预测。




综上所述,基于计算统计的ML策略实现了杂环自由基C−H功能化的快速、可靠的区域选择性预测。物理有机特征和随机森林算法的结合提供了一个令人满意的回归模型,该模型将孤立反应物的DFT计算的性质与过渡态势垒联系起来。包含32个物理有机描述符的随机森林模型在样本外测试集上获得了94.2%的位点准确率和89.9%的选择性准确率。通过将预测结果与DFT计算的包含“看不见的”取代基和芳烃骨架的额外数据集的选择性以及实验结果进行比较,进一步验证了该ML模型的适用性。这项工作为杂环自由基C−H功能化中的区域选择性预测提供了有用的工具,并揭示了基于机理的计算统计作为有机转化性能预测的补充数据源的潜力。


参考文献:

Li, Xin, et al. "Predicting Regioselectivity in Radical C− H Functionalization of Heterocycles through Machine Learning." Angewandte Chemie.


weinxin
我的微信
关注我了解更多内容

发表评论

目前评论:0