英文原题:
Interpretable Graph Transformer Network forPredicting Adsorption Isotherms of Metal–Organic Frameworks
通讯作者:卢宇彤,中山大学计算机学院;刘洋,清华大学
作者:Pin Chen, Rui Jiao, Jinyu Liu,
背景介绍
材料科学研究长期以来通过多种方式进行物理化学性质预测,实验观察耗时长且成本高,分子模拟计算方法随着模拟体系的复杂度增加计算量过大,近年来出现的机器学习方法也存在模型精度不高、泛化能力差等问题,急需探寻新的高效研究方法。金属有机框架材料(MOF)因其在气体分离、存储、传感器以及催化等领域中广泛应用而受到众多研究者的关注,尤其是在考虑在温度、压强等复杂环境下,准确、快速地预测气体吸附性质具有挑战性。
2022年11月1日,中山大学计算机学院卢宇彤教授与合作团队在化学信息学和人工智能研究领域的国际权威学术期刊 Journal of Chemical Information and Modeling 发表了题为“Interpretable Graph Transformer Network for Predicting Adsorption Isotherms of Metal–Organic Frameworks”的研究论文,基于自主构建的大规模计算数据开发了一种预测气体吸附等温线的深度学习新模型 MOFNet,能够准确、快速地预测任意压强下气体吸附量,可用于真实应用场景下的吸附数据补全以及无序结构吸附等温线预测。
文章亮点
本文提出了一种新型层次化图结构表征方法来描述 MOF 材料的结构信息,既可以表征MOF的局域特征又可以表征其全局特征(图1a)。根据 MOF 结构的空间对称性,局域特征使用了非对称最小的重复单元并通过 Transformer 网络来获取低气压下所需要的细粒度、原子级别信息;全局特征则使用了孔隙率、孔径尺寸以及密度等材料结构的几何特征,这些特征在之前的研究中表明对于高气压下的气体吸附量占主要的贡献。进一步,设计了一种压力自适应机制,能够利用有限的指定气压下的吸附数据预测任意压强下的气体吸附量,从而可以有效推理整个吸附等温曲线(图1b)。
图1. MOFNet 框架图。(a)层次化结构表征架构;(b)压力自适应力机制流程图。
本文在天河二号超级计算机上通过大规模高性能计算构建了近20万条吸附数据的计算数据库(CSD-MOFDB)来训练预测模型,并且通过实验观察数据库(NIST-ISODB)进行了模型测试。与已有的机器学习模型相比,包括传统机器学习方法(如 SVM、DT 以及 RF 等)以及等变图神经网络(如 DimeNet++、PaiNN 和 EGNN 等),MOFNet 获得了最佳的预测性能(表1,图2)。在实验观察数据集中,MOFNet 预测准确性也达到了89.7%(图3),结果表明模型可适应于真实应用场景下的吸附等温线预测。
表1. MOFNet 预测性能与其他传统机器学习方法以及图神经网络方法的对比
图2. (a) MOFNet 在10, 000 kPa 高压下CH4气体预测吸附量和蒙特卡洛计算吸附量之间散点图;(b)MOF 吸附等温线案例展示(CSD 编号:BAZFUF)。
图3. 实验观察吸附等物线数据集的预测性能。(a)N2,CO2 和 CH4 气体分子的 MAE 和 PCC 性能;(b) N2,CO2 和CH4 气体分子的准确性性能;(c) MOF-74-Ni 吸附等温线案例;(d) ZIF-8 吸附等温线案例。
本文进一步通过 SHAP 分析解释“结构-吸附性质”之间的定量关系。如图4a,b,c所示,分析不同气体分子在不同压强条件下对特征与预测性质之间的贡献进行排序,发现随着压强的增大,几何结构特征成为主导因素。以 LAGCIH 材料为例,通过蒙特卡洛计算发现,客体分子受到金属原子以及官能团作用,产生吸附,随着压力的增加,客体分子增多并逐步占满 MOF 的孔腔,从物理的角度解释了分子吸附行为与结构的关系 (图4d,e)。同时,通过分析网络第一层的自注意力权重热图,发现MOF分子结构中的金属原子以及官能团对吸附性质占很大权重(图4f,g,h),这与气体吸附的物理本质是一致的,验证了模型中自注意力机制的有效性。
图4. 根据 SHAP 分析特征重要性分别对(a)N2、(b)CO2 和(c)CH4 气体吸附预测的特征进行排序;(d)MOF 材料中的非对称分子单元(CSD 编号:LAGCIH);(e)LAGCIH 材料 CH4 气体在低、中、高气压下的吸附行为;N2(f),CO2(g)以及 CH4(h)在 MOFNet 第一层网络的自注意力权重图。
本文研究通过一种图神经网络模型结合大规模模拟计算数据,训练出可直接预测 MOF 材料吸附等温线模型,大幅提升预测准确性和效率,为领域科学研究探索可解释、可通用的高性能人工智能方法做出了有益实践。
转自:“ACS美国化学会”微信公众号
如有侵权,请联系本站删除!