浙江大学化学系王勇课题组：用于高精度催化性能预测的精细结构敏感型深度学习框架

2023/9/22 17:20:37　阅读：58　发布者：

DOI: 10.1016/S1872-2067(23)64467-5

前言

近日，《催化学报》在线发表了浙江大学王勇教授团队在多相催化领域的最新研究成果。该工作报道了一种新型的结合网格、描述符和数据增强的精细结构敏感型深度学习框架。论文第一作者为：陈宇卓，论文通讯作者为：毛善俊。

背景介绍

催化剂表面的精细结构对结构敏感型反应有很大影响，高通量（HT）筛选和机器学习（ML）可以有效地探索这些影响因素。为了将ML与化学相结合，必须首先将化学结构转换为可用作ML模型输入的特征编码，目前常用的两种转换方法为描述符和图（graph）。然而，描述符的构建往往忽略原子连接，这使得ML模型难以捕获与催化性能最相关的几何信息。基于图的ML模型在更新节点的过程中会不可避免地丢失吸附位点的几何排列信息，同时消息传递神经网络复杂，导致其对电子或几何结构不敏感、缺乏可解释性。因此，现仍缺乏可同时兼顾多相催化中电子和几何精细结构的可解释ML框架。

本文亮点

本文通过将催化表面结构和吸附位点信息分别转换为二维网格和一维描述符，创建了一个名为全局+局部卷积神经网络（GLCNN）的数据增强（DA）卷积神经网络（CNN）ML框架，其结合“全局+局部”特征，无需复杂的编码即可捕获原始精细结构。GLCNN可以很好地预测和区分碳基过渡金属单原子催化剂（TMSAC）上OH的吸附能，平均绝对误差小于0.1 eV，这是在大型数据集上训练的ML模型所能达到的较好结果。将GLCNN与基于描述符或图的模型对比后发现对比模型无法完全准确预测包含IB和IIB过渡金属或者顺式/反式构型催化剂的OH吸附能，而GLCNN模型的预测效果明显好于对比模型，表明网格和描述符的组合可以更好地体现催化活性中心的电子和精细几何结构信息。

图文解析

图1. 基于“全局+局部”的双输入-单输出GLCNN框架的流程图，其中灰色和蓝色的原子分别代表C和Pd。蓝色和红色框里分别为全局和局部部分。

要点：

首先，GLCNN框架对原始的化学结构进行了扩胞、网格化，并添加了多个通道。矩阵中零元素和非零元素的排列和组合构成了原始化学结构的全局几何信息。通道包含原子序数、电负性等元素基本物理化学属性。接着通过裁剪和翻转进行数据增强，然后将网格数据通入CNN模块提取特征。为了包含活性位点的固有电子结构特征，GLCNN中额外加入过渡金属（TM）及其第一壳层的基本物化属性作为第二个输入，并将其与CNN的输出拼接，通入全连接层（FC）得到最终的预测结果。

表1. GLCNN预测OH吸附能的平均绝对误差（MAE）和MAE*（单位：eV），MAE*将来源于同一个原始样本的所有DA数据的平均值作为预测值。所有预测误差都是使用五倍交叉验证方法估计的。

a 从最初的20个DA样本中随机选择。b NA表示无法计算该值。c 括号中为MAE*。*网格和描述符模型的输入分别只包含网格和描述符，Total表示完整的GLCNN模型。

要点：

仅使用描述符的模型的预测性能较差，MAE高达0.361 eV，这表明吸附位点的局部信息很难单独作为特征来描述包含精细结构的数据集。当使用纯网格数据时，MAE降至0.159 eV，这表明与局部信息相比，全局信息主导了OH的吸附行为。在一定范围内随着DA次数的增加，纯网格模型的MAE从0.159 eV降低到0.129 eV，表明DA可以缓解过拟合。此外，MAE比MAE*高0.004-0.006 eV，这表明计算DA样本的平均值有助于降低预测误差。当网格数据和描述符同时作为输入时，GLCNN的预测误差可小于0.1 eV，表明单独的网格数据无法锁定吸附位点，描述符的添加能够使GLCNN提取更多有用的特征。

表2. OH化学吸附预测模型的比较。

a基于碳的TMSAC数据集，其余为合金数据集。b人工神经网络。c高斯过程回归。d线性回归。e从数据集中随机选择一半数据。*括号中的MAE*和RMSE*。

要点：

在合金数据集上训练的最优模型都是基于图的（晶体图卷积CGCNN和TinNet），而基于描述符的模型其预测性能相对较差（贝叶斯、GPR和ANN），这表明几何信息对于催化表面化学性能的预测至关重要。对于TMSAC数据集， LR模型的预测较差，MAE高达0.210 eV。相比之下，GLCNN在大型数据集上实现了最低的预测误差，MAE*和RMSE*分别达到0.099和0.167 eV。此外，即使训练集的大小减半，GLCNN的预测能力仍然与CGCNN相当。上述结果表明，网格、描述符、DA和CNN算法的组合在预测吸附能方面比图/描述符和CGCNN/其他非DL算法的组合更有效。

图2. (a) GLCNN的学习曲线，其中MAE是通过五倍交叉验证方法估计的。GLCNN (b)，LR (c) 和CGCNN (d) 的预测值与DFT计算值的比较，其中数据分布的直方图显示在 (b) 的顶部。插图显示了具有顺式/反式（红/绿）构型的催化剂的DFT计算值和模型预测值之间的比较。相同形状的点表示一对具有相同扩胞系数、缺陷类型和N含量的顺式/反式构型。

要点：

GLCNN的学习曲线表明当数据集的使用率大于50%时，误差收敛已经小于0.11 eV，意味着TMSAC数据集包含充足的数据。进一步统一使用TMSAC数据集和基于描述符的LR以及基于图的CGCNN模型进行比较。结果表明，LR模型的预测误差高达0.564 eV，且完全无法区分顺式/反式构型。CGCNN模型的预测误差为0.114 eV，与GLCNN相当，但是其无法完全准确预测包含IB和IIB过渡金属或者顺式/反式构型的催化剂的OH吸附能（2 eV左右的数据以及插图中的五角星符号）。GLCNN模型的预测和顺式/反式的区分效果明显好于对比模型，表明网格和描述符的组合可以更好地体现催化活性中心的电子和精细几何结构信息。

图3. (a) GLCNN模型的PFI分析。具有顺式/反式构型的DV (b) 和HV (c) 缺陷的催化剂的OH吸附能差的分布。

要点：

置换特征重要性（PFI）可以测量不同特征的贡献，其破坏特征的排列，并在模型的预测中计算误差的变化。结果表明，TM族数的贡献最大，高达0.761 eV。第一壳层族数的PFI为0.445 eV，明显低于TM的贡献，表明TM吸附位点的电子结构决定了吸附性能。另外，对称性和顺式/反式构型特征的0.426和0.135 eV的PFI值说明了活性中心精细几何结构对催化性能有不可忽视的影响。

图4. 第一个卷积 (a) 和激活层 (b) 以及第二个卷积 (c) 和激活层 (d) 的中间输出。从第一个 (e) 和第二个 (f) 卷积层的Grad-CAM分析热图。

要点：

第一个卷积层主要捕捉催化剂的轮廓特征，其可以清楚地识别石墨烯的六元环。经过第一个激活层后，六元环的特征变得模糊，金属位点及其周围环境的信息逐渐突出。随着卷积层的深入，第二卷积层和随后的中间层的输出不再能够体现催化剂的几何结构，表明GLCNN依靠TM位点及其周围配位环境提取更抽象的高维特征，这与远离TM的六元环对催化性能几乎没有直接影响的推论一致。另外，Grad-CAM分析中GLCNN对于TM位点优先以及反复的关注表明了TM位点的重要性，这与PFI分析一致。

图5. T-SNE分析，使用OH的吸附能 (a,d,g)、TM的族数 (b,e,h)、缺陷类型 (c,f,i) 分别作为第一 (a-c)、第二 (d-f) 和第三 (g-i) FC层的拟合或分类标准。

要点：

降维可视化分析（t-SNE）的结果表明第一FC层对于吸附能的预测不理想，但是其可以很好的区分缺陷类型。第二FC层对于吸附能的预测性能稍微提高，同时可以很好识别TM在元素周期表中的位置。第三FC层对于所有的催化信息的区分效果都很差，但是其对于吸附能的预测性能最好。以上结果表明，前两层FC层基于催化常识提取特征，最后一层FC层基于前两层提取的特征在更高维的空间拟合吸附能，这与卷积层的特征提取趋势类似。

总结与展望

1. 构建了结合“全局+局部”特征的可解释性卷积深度学习框架GLCNN。

2. 通过数据增强，GLCNN实现了TMSAC数据集上OH吸附能的最佳预测，平均绝对误差小于0.1 eV。

3. 网格和描述符作为输入解决了多相催化中ML模型对精细结构敏感度低的难题。特征重要性分析，可视化等分析表明中心金属原子的重要性，揭示了GLCNN的特征提取流程。

4. GLCNN为广阔的物理和化学空间中结构敏感反应多相催化剂的搜索提供了有效的解决方案。

作者介绍

毛善俊，浙江大学化学系前瞻研究中心专职研究员。从事多相催化的实验与理论计算研究，聚焦选择性加氢、氢甲酰化以及塑料回收利用等方面的构效关系以及新路线开发。目前已在Nat. Commun., Chem, J. Am. Chem. Soc., Angew. Chem. Int. Ed., E.E.S., ACS Catal., Chin. J. Catal., J. Catal., Appl.Catal. B Environ.等期刊发表论文50余篇，被引2100余次，获授权发明专利15件，H-index 22。承担和参与国家和省部级项4项。申请人参与开发的高效加氢催化剂成功实现国际首例无铅、无有机助剂炔醇半加氢工业应用（VE、VA、虾青素以及叶醇）。研究成果荣获浙江省“技术发明一等奖”（2/6）、石化联合会“技术发明特等奖”（4/30）和中国专利金奖（5/9）等奖励。

王勇，浙江大学化学系教授，博士生导师，催化研究所所长。国家重点研发计划项目首席科学家，国家优秀青年科学基金获得者，中组部“万人计划”青年拔尖人才。致力于纳米/工业催化剂的研发，特别是基于多孔炭及金属氧化物的负载型工业催化剂的开发及相关反应机理的研究，所开发的多个催化剂在工业上得到应用，产生了显著的经济和社会效益。在Chem., J. Am. Chem. Soc., Nat. Commun., Angew. Chem. Int. Ed.等期刊上发表SCI论文170余篇，被引用2万余次，H-index 64。获授权国家发明专利50余件。作为项目负责人先后承担多项国家及省部级项目，如国家自然科学基金杰出及优秀青年基金、面上项目，浙江省杰出青年基金、重点基金及重点研发（尖兵计划）等项目。荣获中国专利金奖、优秀奖，第九届中国催化青年奖，侯德榜化工科技-创新奖，中国石油与化学工业联合会“发明特等奖”，以及浙江省科学技术发明一等奖等荣誉。

课题组链接：www.chemwy.cn

曹亮，浙江大学化学系“百人计划”研究员、博士生导师，国家高层次青年人才。2010年本科毕业于中国科学技术大学，2016年博士毕业于美国约翰霍普金斯大学，随后继续在约翰霍普金斯大学任职博士后研究员。2021年3月加入浙江大学化学系，成立理论与计算催化化学课题组。课题组的研究工作主要围绕利用和发展新颖的计算方法/模型来研究多相催化剂在原子尺度上的“构-效关系”，从而开展催化剂的理性设计、推动新能源技术的发展。至今以通讯作者或第一作者在JACS、PNAS、Matter、Nano Lett.和ACS Catal.等期刊发表一系列高水平论文。

课题组链接：

https://person.zju.edu.cn/caoliang

文献信息：

Yuzhuo Chen, Hao Wang, Bing Lu, Ni Yi, Liang Cao, Yong Wang, Shanjun Mao *, Chin. J. Catal., 2023, 50: 284–296

转自：“研之成理”微信公众号

如有侵权，请联系本站删除！

上一篇： Small封面文章：P和Se二元空位和异质结调节的MoP/MoSe2电催化剂促进析氢和耦合发电
下一篇： 刘伟兵｜通往解放的道路：中国式现代化的人类解放意蕴

投稿问答最小化 关闭

浙江大学化学系王勇课题组：用于高精度催化性能预测的精细结构敏感型深度学习框架

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

浙江大学化学系王勇课题组：用于高精度催化性能预测的精细结构敏感型深度学习框架

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭