中国石油大学(华东) 宋弢团队JCIM | 一种有效提升蛋白质相互作用位点预测性能的新策略
2023/1/5 15:21:10 阅读:217 发布者:
英文原题:
RGN: Residue-Based Graph Attention and Convolutional Network for Protein–Protein Interaction Site Prediction
通讯作者: 宋弢,中国石油大学(华东)/马德里理工大学
作者:Shuang Wang, Wenqi Chen, Peifu Han, Xue Li
背景介绍
蛋白质相互作用位点(PPI site)指的是在一个蛋白质上, 和其他蛋白可能会发生相互作用的区域, 准确预测 PPI site 可以帮助我们理解生命活动,并解决一些药物的设计与开发相关的问题。然而,传统的基于生物实验的方法费时费力,因此开发出高效,准确的基于计算的方法是有必要的。然而,由于蛋白质的复杂结构和生物化学性质,以及相互作用位点较少,这使得 PPI site 预测依然是一个十分困难的任务。
文章亮点
2022年11月18日,中国石油大学(华东)计算机科学与技术学院,青岛软件学院学院宋弢教授团队在化学信息学和人工智能研究领域的国际权威学术期刊Journal of Chemical Information and Modeling上发表了题为“RGN:Residue Based Graph Attention and Convolutional Network for Protein-Protein Interaction Site Prediction”的研究论文,显著提升了 PPI site 预测的性能。这一发现对准确预测蛋白质相互作用位点,以及药物蛋白结合靶点预测有着重要意义。
宋弢教授课题组提出的RGN模型有效提升 PPI site 预测的性能
传统的基于深度学习的方法大多都是基于蛋白质的序列信息,然而蛋白质的空间结构决定了蛋白质的功能以及生物化学特征,为了提取蛋白质的空间信息,宋弢教授课题组构建了蛋白质的 cutoff based 蛋白质图拓扑结构。把蛋白质的氨基酸当做节点,定义了 cutoff based 的边构建方法,即计算出蛋白质中任意两个氨基酸节点之间的空间距离,当空间距离小于14Å时,在这两个氨基酸之间有边相连。并且结合使用 PSSM,HMM,DSSP和 Probert 这四种节点特征。RGN 是基于残差结构的图卷积神经网络和图注意力机制神经网络。通过和其他九种不同模型的对比,宋弢教授提出的 RGN 在 Accuracy,Precision,F1,MCC,AUROC 和 AUPRC 上在 Train_335 和 Test_60 数据集上取得了最好的预测性能。
图1:RGN模型架构
图2:RGN和其他模型对比结果
该发现揭示了目前 PPI site 预测问题上存在的问题
为了揭示蛋白质的结构信息和 PPI site 预测性能紧密相关,宋弢教授选取了 5M2OB 和 5KNHI 两个蛋白质,绘制了 RGN 在这两个蛋白质上的预测性能。绿色表示 TN,红色表示 TP,黄色表示 FP,蓝色表示 FN。通过图3可以发现,FP 的数量要远比 FN 要多。同时 PPI site 本身就是作用位点(正样本)远比非相互作用位点(负样本)少的预测任务。这说明目前 PPI site 的主要任务之一仍然是如何利用较少的正样本来提升整体的预测性能。其次,黄色区域主要在红色区域和绿色区域之间,这说明现在的预测模型的另一个主要问题是如何有效的区分相互作用位点区域和非相互作用位点区域。
图3:RGN 模型在 5M2OB 和 5KNHI 两个蛋白质上的预测性能。
该发现揭示 RGN 和 Alphafold2 结合有不错的性能
近期,Alphafold2 准确地预测出了绝大多数蛋白质的空间结构。此前,受限于蛋白质结构无法获取,限制了基于蛋白质结构的模型发展。因此,宋弢教授选择了1215个此前未被生物学家验证空间结构的蛋白质,使用 Alphafold2 预测蛋白质空间结构。使用这1215个蛋白质作为训练集,来验证模型性能。值得注意的是,这1215个蛋白质构成的训练集,他们结构并不是准确的,而作为测试集的结构是此前被生物学家验证过的。如图4所示,RGN 和另一个基于空间结构的模型 GraphPPIS 相比,所有评价指标都有所提升。这说明,宋弢教授提出的 RGN 模型和 Alphafold2 结合,有望在越来越多的蛋白质结构上准确预测 PPI site。
转自:“ACS美国化学会”微信公众号
如有侵权,请联系本站删除!