投稿问答最小化  关闭

万维书刊APP下载

追求“第一性原理”:高精度、大体系的理论化学计算方法的发展

2023/6/16 16:32:53  阅读:294 发布者:

计算化学要预测和指导真实的化学实验体系有两方面的要求:一是要确保一定的精度,才能把量化的计算结果转化为性质认知;二是要具有计算更大体系的能力,才能处理实际化学问题。报告主要介绍了课题组在这两方面的进展:

1)提升泛函的预测精度:XYG3系列泛函

2)提升处理大体系的能力:分子碎片方法

提升泛函的预测精度:XYG3系列泛函

2007年,有80%以上的计算使用了B3LYP泛函[1]。事实上,根据引入信息的增多,可以把泛函分作若干层级。B3LYP是在单个电子密度的基础上,引入了密度变化信息、轨道信息、占据轨道杂化信息的杂化泛函,在很多问题上可以达到化学精度。但是,B3LYP也存在局限性,主要表现在三个问题上:首先,该泛函所处理的体系越大,估计的生成热误差就越大。这限制了泛函处理大体系的能力;其次,该泛函计算的能垒常常偏低,给人以错误的动力学估计结果;最后,该泛函在考虑非共价作用时不具有优势。两个存在非共价作用的单元在B3LYP模拟下是纯粹排斥的。这限制了该泛函在模拟生物大分子上的应用,因为生物大分子的结构和功能十分依赖非共价作用[2]

为此,徐老师课题组发展了双杂化XYG3泛函,在B3LYP的基础上引入了未占据轨道的杂化信息。在泛函形式上,在B3LYP的基础上考虑了二阶微扰的贡献,这使得复杂度上升到O(N5);考虑到只有自旋反平行的电子才能成键,可以只考虑这部分电子的相互作用,即XYGJ-OS(opposite spin),将复杂度降为O(N4);再局限在local OS,将复杂度降为O(N3),由此实现了在保持较低复杂度的同时能获得较高的精度。这种泛函在生成热、反应能垒、非共价作用和键长的预测上都展现出优势[3]。除了预测能量相关量,还可以基于此泛函计算化合物的其他性质,如振动频率、极性、核磁共振谱等等。

2017年的一篇文章指出:2000年以后发展的泛函,能量描述越来越好,密度描述却在变差,这违背了密度泛函理论的基本原理。换言之,如果一个泛函在错误的密度输入下给出了正确的能量输出,就无法保证在正确的密度输入下给出正确的能量输出,这个泛函已经“失败了两次”。经过验证,新发展的泛函在电子密度和能量描述上都展现出较高精度[4]

新发展泛函在数值模拟上的更高精度,可以帮助我们得到B3LYP泛函无法模拟的化学行为信息。比如,铝原子和氧原子的结合是通过“钓鱼机制”实现的,即铝原子先将一个电子转移给氧原子,将氧原子拉近形成化学键。这在能量-距离关系上应体现为随着铝-氧距离的减小,能量先升高、再降低;在铝原子电荷-距离关系上,应当表现为在距离接近到某一程度时,铝原子快速带正电(电子转移),随着与氧原子进一步接近,正电性慢慢减弱。使用B3LYP无法模拟出这一过程,而XYG3可以模拟得到,且计算出的电子转移距离与实验数据相符

提升处理大体系的能力:分子碎片方法

2013年诺贝尔化学奖颁给了研究复杂体系计算方法的化学家。他们的基本思路是将精度要求高的部分用精确的量子力学方法处理,将精度要求更低的部分用经典力学方法处理,以避免量子力学理论计算方法带来的过于庞大的计算量。

徐老师课题组使用了另一种降低整体复杂度的方法:分子碎片方法。设想将复杂度为O(N4)的,含有M个单元的体系等分为四份,总计算量为4*(1/4M)4,相当于整体计算的1/64。它与ONIOM方法的区别在于,这一方法把边界区域分成若干“补丁区”(patch region),减轻了划分边界带来的误差。这种方法被命名为extended ONIOM(XO)方法

XYG3双杂化泛函同XO分子碎片方法结合,可以实现大体系的高精度模拟。例如,使用这种方法对晶体中阴离子-pi相互作用进行模拟,得到的键长和键角与实验值相符。选取不同的补丁区,计算的误差不同,最优的补丁区选取方案得到的误差明显小于传统的ONIOM计算方法[7]。在测试样例的分子晶体内聚能计算上,XO-PBC@XYG3方法的模拟值与实验值的误差整体小于测试中所使用的其他方法[8]。在蛋白质-药物互作模拟上,XYG3@XO方法在预测PAK120药物的结合力上与实验数据相符,并且开发了用于共价药物与蛋白质结合结构预测的方法

定量模拟的精确性再一次解决了定性认知问题。在Cu(111)表面水分子六聚体的最稳定构象问题上,以往的理论计算指认椅式构象为最稳定构象,但实验STM支持更高对称性的结构,指认平面结构为最稳定构象,出现了理论计算与实验结果在结论上的差异。通过XYGJ-OS模拟,指认出船式构象为最稳定吸附构象,计算结果与高精度、高复杂度的CCSD(T)方法相符,也与实验数据相符,解决了长期存在的问题

徐老师用两个引人深思的问题作为结束。第一个问题是:第一性原理和数据驱动科学的关系如何?微软公司Jim Gray博士曾提出科学发展的四个范式,认为科学经历了经验主义范式、模型理论范式、计算模拟范式到大数据驱动范式的过程。从原理上讲,第一性原理是从基本理论自下而上地模拟自然体系,理论上不需要任何信息输入,就可以得到模拟结果。而大数据驱动的研究是基于宏观信息的整理和分析,实现底层规律的归纳和类似体系的预测。二者是有很大区别的。但是,以密度泛函理论为例,虽然在理论上DFT是基于第一性的计算,但是由于泛函形式不确定,实际上仍然需要依靠数据拟合得到参数信息。当然,由于第一性原理的性质,从某组性质数据得到的泛函参数,可以用于预测另一种不相关的性质,这与大数据方法是不同的。在某种意义上,两种方法又是有联系的。

徐老师接着展望了量子计算机的发展。量子计算首先具有高效率的特点,可以以更快的速度计算,有望在计算能力上满足高精度高复杂度方法处理大体系的需求。但由于DFT理论要求找到合适的泛函形式,如果不解决泛函问题,更快的算力也无济于事。量子计算机的另一大特点是其结构原理是基于量子的,按照“使用量子系统模拟量子系统”的思路,有望基于量子逻辑开发新算法,更好地模拟量子化学系统。

Q1:双杂化泛函是否适用于多参考态体系和分子激发态?有没有计划研究这方面的问题?

A1:通过XYGJ-OS方法可以较好地模拟激发态,这方面已经有所进展。多组态体系方面,多组态间具有强相互作用的体系是一个难题,CCSD(T)方法也难以解决。课题组现在的方法研究是用CCSD(T)的计算结构作为标准和“试金石”。CCSD(T)还解决不了的问题,目前所发展的方法也还解决不了。希望以后在这方面取得进展。

Q2:马尔可夫模型一般用于大分子模拟,有没有可能引入第一性原理的方法,计算小分子不同状态下的模型?

A2:马尔可夫模型的预测是否成功是有判据的,需要预测较多的轨迹,在AIMD级别上能否跑出这么多轨迹是问题。这种想法应该可行,但是用AIMD跑不起那么多轨迹,可能不能通过测试。

追问:在过往的计算中发现,很多轨迹实际上是冗余的,大量轨迹指向同样的稳态。可不可以减少冗余减少计算量?

A:你提到的计算是粗粒化的,可能对计算结果是有影响的,导致了冗余的问题。冗余问题还可能来自反应坐标设计的问题,一些反应坐标不能很好区分反应进程,看上去轨迹指向同样的稳态。

Q3: 分子碎片的方法,是embedding吗?是哪个层次的embedding

A3:和ONIOM2的思路类似,XO的方法引入了补丁区,解决了ONIOM不能有效扩大的问题。按照embedding的说法,是把P64的每一个彩色嵌入在环境里计算、再拼在一起,由于计算时已经考虑了environment effect,拼在一起的总能量误差只有0.3 kcal/mol

Q4:发展的泛函能不能处理范德华力?

A4:发展的双杂化泛函内禀具有这种能力,比如前面展示的对非共价相互作用的预测。

Q5: 如何看待通过深度学习网络构建泛函形式?

A5:由于密度泛函基于第一性原理,XYG3仅使用生成热信息拟合,就可以具有对反应能垒和非键作用很好的拟合结果。课题组在发展不需要数据拟合的泛函形式,也在发展引入更多信息构建的泛函形式。通过深度学习网络构建泛函也是一种好办法。

Q6:XYGJ-OS泛函与B2PLYP泛函的比较?

A6:复杂度上,XYGJ-OS泛函只考虑local OS,要比B2PLYP快一个数量级。效果上,(P84B2PLYP在频率和极化率上的一些计算模拟结果是“炸掉”的,完全不合理。新泛函则没有出现这种情况。

Q7:不同的切片方法是否会导致不同的计算误差?

A7:是的,但课题组开发了自动化的判断切片效果好坏的程序,使用force error判据和总能量判据。此外,效果不好的切片方法也可以提供对结构的理解,因为这可能暗示方法对应的边界化学键参与了长程相互作用等。

虽然数据驱动的计算模拟方法在一些领域更早地被广泛应用,比如在蛋白质结构预测领域取得成功的AlphaFold2RosettaFold技术,这都是基于深度学习策略实现基于序列的结构预测的。但是,这种方法过于依赖可获取的数据集,使得方法的适用范围和灵活性比较低,比如上述的方法不能够预测含有非天然氨基酸或翻译后修饰的蛋白结构,也很难进行蛋白质设计。要实现这些计算任务,需要类似Rosetta软件集的,具有某种打分函数的计算原理。虽然这些打分函数可能基于分子动力学而非量子力学,但也可以视作是基于第一性原理的预测。从这个角度,第一性原理预测的优势在于具有更广的应用范围和更灵活的使用方法,这是存在实际计算需求的。

转自:“闪思科研空间”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com