中科大江俊教授JACS:电偶极矩描述符助力人工智能预测催化剂-分子相互作用

  • A+
第一作者:王翕君;叶盛;胡伟       

通讯作者:江俊       
通讯单位:中国科学技术大学化学与材料科学学院        
论文DOI:10.1021/jacs.0c01825

全文速览


发掘构效关系描述符用以描述复杂的催化剂表面-分子相互作用是催化剂材料理性设计迫切需求。该工作基于高通量第一性原理计算获得的数据集,构建了深度学习神经网络模型,揭示了电偶极矩与催化剂表面-分子相互作用的深层次关联性。研究以NO/CO@Au(111)体系为例,快速而准确地预测了分子在催化剂表面的吸附能和电荷转移量,并成功将训练模型迁移应用于预测更多的体系如NO/CO@Au(001)NO/CO@Ag(111),展现了深度学习模型在材料研究中的泛化能力。而电偶极矩描述符既能被实验直接测量、又便于理论计算、还能连接微观信息(几何结构、形貌、电子态波函数等)与性能参数(吸附能、电荷转移等),在构效关系和催化机理研究中具有普适的应用价值。

背景介绍


A. 预测表面-气体相互作用是表面科学和催化剂设计面临的重大挑战
催化剂表面-气体相互作用通常可以从两个方面来描述——能量(吸附能)和电荷(电荷转移)。前者常常用于描述和预测催化剂的反应活性,而后者用于描述分子与表面的电子态耦合情况。然而,吸附能和电荷转移都是理论概念,难以被实验直接观测,这制约了它们在真实体系中优化催化剂表面活性的作用。此外,由于真实体系中结构改变存在大量的自由度,精确计算吸附能或电荷转移量往往十分昂贵。在江俊课题组的前期工作中(ACS Appl Mater Inter. 2019, 11: 9629),他们针对小部分数据,采用偶极近似的框架下,拟合得到了吸附能和反应能垒对电偶极矩矢量点乘数值的线性依赖关系,并给出了有一定指导意义的经验公式。然而,当研究数据样本量增大到超过1万组时,经验公式不能从某一体系泛化推广到更多的催化剂材料,丢失了至关重要的预测能力。因此,探索出高效且能迁移利用的构效关系描述符,并依此找回从微观结构到性能参数之间的数学映射关系,成为理性设计高性能催化剂的迫切需求。
 
B. 理想的构效关系描述符要求苛刻
一个理想的构效描述符应当包含以下特性,首先它需要反映表面和被吸附分子的几何结构信息;第二,它应该包含电子态波函数的空间分布信息(因此需要深入微观量子态层次,并必须是矢量而不是标量,且能被分解到不同区域);第三,它应该能被实验直接测量,同时又易于被理论计算获得定量值。此前已经有很多描述符被提出,包括已经被广泛使用的功函数、d带中心、波函数和点电荷等。而电偶极矩描述符能完全满足了上述苛刻要求,它来自于电子态波函数的积分计算,包含了电子分布的定量和空间信息,同时易于测量和计算,因此具备描述表面-分子的相互作用并预测关键性能参数的潜力。


本文亮点



基于第一性原理计算,作者建立了深度神经网络机器学习模型,从数万个吸附构型中获取电偶极矩与目标特性之间的定量关系,首次提出并证明了电偶极矩作为方便、准确的描述符用于定量描述催化剂表面-分子相互作用的可行性和精确性。

进一步地,作者发现建立的神经网络训练模型不仅可以定量地解释电偶极矩与吸附能、电荷转移之间的内在联系,而且表现出卓越的可扩展和迁移性,能很好地预测其它相关吸附体系中的表面-分子相互作用。这些发现证明了神经网络训练模型从某种材料推广到多种材料的泛化能力,为未来的催化剂设计提供理论指导(J. Am. Chem. Soc. 2020, 142, 7737-7743)。

图文解析


A. 模型构建
为了研究电偶极矩与表面-分子相互作用的关系,作者选取了两个电偶极矩相关描述符——表面与分子偶极矩夹角(α)和表面与分子偶极相互作用能(Vdd),作为对比,同时选取了两种已被广泛使用的描述符d带中心(εd)和功函数(WF)。目标特性则选取了分子在表面的吸附能和电荷转移量。如图一,为了获取大量的数据以供神经网络训练,作者分别构建了气体分子CONO金属Au(111)表面的吸附结构,通过手动调节分子与表面的接触角度各生成了一万个吸附构型。接着,应用第一性原理计算得到描述符-目标特性的数据集。
Figure 1. Schematic illustration of the surface-dipole and molecule-dipole included angle α (a), and the ad-sorption angles φ and θ (b). φ and θ were incremented in small steps to form 10,000 possible configurations.

B. 模型训练
如图2和图3所示,不难发现,四种描述符(αVddεdWF)与目标性质之间的对应关系十分复杂,难以用简单的公式直接拟合,而神经网络在高维拟合上表现出优势,成功破解了这些数据的内在联系,找到规律并作出预测。预测值与计算值之间出色的一致性表明,四个选定的描述符可以准确地关联表面-分子相互作用的所有特征。随后,重要性分析表明,在选定的描述符中,偶极矩相关的描述符发挥了最重要的作用。为了进一步验证偶极矩相关描述符的预测能力,作者采用αVdd作为描述符重新训练了模型,得到了很好的预测结果。进一步地,作者分别采用αVddεd作为单一描述符重新训练模型,发现基于α的训练模型总是表现出最佳的预测能力,预测性能要优于被广泛使用的εd
Figure 2. Eads and Δe for CO@Au(111) adsorption configurations as a function of (a) Vdd, (b) α, (c) WF and (d) εd. Comparison of the DFT-computed and NN-predicted (e) Eads and (f) Δe values, as well as the corresponding relative im-portance of each descriptor analyzed by RF.

Figure 3. Eads and Δe for NO@Au(111) adsorption configurations as a function of (a) Vdd, (b) α, (c) WF and (d) εd. Comparison of DFT-computed and NN-predicted (e) Eads and (f) Δe based on the four descriptors, along with RF importance analysis for each descriptor.


C. 模型扩展和迁移
训练模型的迁移性(迁移学习)是神经网络应用中的一大难点,由于不同表面-分子体系的吸附能和电荷转移数值上存在较大差异,直接将CO/NO@Au(111)体系得到的训练模型用于预测Au(001)表面-气体相互作用很难得到可靠的结果。幸运的是,作者发现只需将少量的CO/NO@Au(001)数据(如1000组数据)加入原有的10000CO/NO@Au(111)数据中重新训练,即可得到表现很好的训练模型,用于准确预测CO/NO@Au(001)的数据(图4),表明训练模型具有良好的可扩展性。
▲Figure 4. Comparison of values computed by DFT with those predicted by NN of (a) Eads and (b) Δe for CO@Au(001) and CO@Au(111), and (c) Eads and (d) Δe for NO@Au(001) and NO@Au(111).

更进一步地,作者尝试迁移Au(111)表面的训练模型,用于预测Ag(111)表面的气体吸附行为,如图5所示,吸附能和电荷转移的预测均表现出较高的准确性。重要性分析再次显示表面-分子偶极矩夹角α在预测中发挥了重要作用。

Figure 5. (a) Diagram of the NN model transferring from CO@Au(111) to CO@Ag(111). Comparison of values computed by DFT with those predicted by NN of (b) Eads and (c) Δe for CO@Ag(111), along with the corresponding relative im-portance of each descriptor analyzed by RF. These NN-predicted data are produced by the NN model trained by the CO@Au(111)datasets.

总结与展望


在这项研究中,作者发展了基于第一性原理的机器学习技术用于预测催化剂表面-分子相互作用。在选取的描述符中,表面与分子偶极矩夹角α表现出最佳的预测性能。这种电偶极矩夹角描述符还包含了电子分布的几何信息,具备高精度和实验可测等优势,在理解和测量实际复杂体系中的表面-分子相互作用上展现出普适的应用前景。此外,作者深入研究了神经网络训练模型从某个表面-分子体系的迁移并泛化到多个其他体系的可行性。本研究引入了一种新的方法来评估和预测催化剂表面-分子相互作用,为理性设计和优化高性能催化剂开辟了新途径。

 通讯作者简介



江俊,中国科学技术大学化学与材料科学学院教授,2000年获武汉大学物理学士学位,2007年获瑞典皇家工学院理论化学博士学位,2008年获中国科学院上海技术物理研究所微电子与固体电子学博士学位。此后在瑞典皇家工学院与美国加州大学尔湾分校从事博士后研究。201110月入选首批中组部青年千人计划2013年获批主持国家科技部青年973项目。江俊教授主要从事理论化学研究,发展和应用多个尺度的物理与化学理论方法,聚焦于复杂体系内电子运动模拟,研究在多个物理与化学应用领域(光催化、生物化学、光化学、分子电子学与光子学)中的实际问题。在国际知名SCI期刊如Nat. Energy, Nat. commun., J. Am. Chem. Soc.,Adv. Mater.等发表论文180余篇。近年来结合数据挖掘和人工智能技术,开发了化学材料知识图谱,建设了大规模材料科学数据库平台(www.dcaiku.com),包含9000万分子、30万晶体材料、1100万化学反应、数万种催化/光电材料等数据资源,为学术研究与企业研发提供数据服务。主持开发5个计算软件包,在美国、瑞典等多个国家的知名研究组应用。获2015年中国化学会唐敖庆青年理论化学家奖, 2020年日本化学会杰出讲座奖。
 
原文链接:
https://pubs.acs.org/doi/10.1021/jacs.0c01825


weinxin
我的微信
关注我了解更多内容

发表评论

目前评论:0