浙江理工张贵军和南京理工於东军团队JCIM | 新方法提升DNA绑定蛋白质预测精度
2023/3/29 13:49:13 阅读:143 发布者:
来源:
英文原题:
Improving DNA-Binding Protein Prediction Using Three-Part Sequence-Order Feature Extraction and a Deep Neural Network Algorithm
通讯作者: 张贵军,浙江理工大学;於东军,南京理工大学;胡俊,浙江工业大学
作者:Wen-Wu Zeng, Ning-Xin Jia, Muhammad Arif
背景介绍
蛋白质与 DNA 是生命活动中两类重要的生物大分子,它们之间的相互作用无可替代,在 DNA 复制、转录与修复活动中发挥重要作用。揭示蛋白质与 DNA 相互作用的内在机制对于深入理解生命活动十分重要,将有助于识别致病变异并进行药物设计。精确识别 DNA 绑定蛋白质是揭示蛋白质与 DNA 相互作用内在机制的重要步骤之一。通过深度学习的计算手段进行快速、精确的 DNA 绑定蛋白质预测,已受到了国内外相关学者的广泛关注。
文章亮点
2023年1月31日,浙江工业大学信息工程学院张贵军教授团队和南京理工大学计算机科学与工程学院於东军教授团队合作在化学信息学和人工智能研究领域的国际权威学术期刊 "Journal of Chemical Information and Modeling"上在线发表了题为 "Improving DNA-Binding Protein Prediction Using Three-Part Sequence-Order Feature Extraction and a Deep Neural Network Algorithm" 的研究论文(论文第一作者为浙江工业大学信息工程学院胡俊副教授),提出了一种基于深度学习的 DNA 绑定蛋白质预测新方法,提升了基于序列信息的 DNA 绑定蛋白质预测精度。这项研究对揭示蛋白质与 DNA 相互作用的内在机制具有十分重要的意义。
通过分析 CATH 数据库中的多域蛋白质,研究团队发现,在自然界中,多域蛋白质的 N 端和 C 端残基在很大概率上位于不同的结构域中。基于这一发现,为了兼顾多域蛋白质 N 端和 C 端信息的差异,提取更多的蛋白质序列特征信息,作者提出了一种三段式序列特征提取方法 TPSO。TPSO 将蛋白质序列等分成两等份,分别表示 N 端序列和 C 端序列,在从 N 端、C 端以及全长序列中提取表示序列有序信息的伪特征。
在 TPSO 的基础上,研究团队提出了一种基于 Bi-LSTM 的深度学习框架来学习 DNA 绑定蛋白质预测模型。该学习框架包含三个 Bi-LSTM 层与全连接层混合模块,分别处理 TPSO 生成的 N 端、C 端和全长序列的特征信息。三个混合模块的输出被输入到一个全连接模块中,来预测待测蛋白质属于 DNA 绑定蛋白质的概率,最终判断是否属于 DNA 绑定蛋白质。基于上述框架,利用多种不同视角的序列特征(如PSSM等)作为原始特征,提出了一种名为 TPSO-DBP 的 DNA 绑定蛋白质预测方法。
在基准测试集上的实验结果表明,与现有 DNA 绑定蛋白质预测方法相比, TPSO-DBP 获得了更为出色的预测性能。在不同的训练集上训练的 TPSO-DBP 模型均取得了优异的MCC指标值。以在 UniSwiss-Tr 训练集上学习模型为例,TPSO-DBP 在两个重要指标 MCC 与 F1 上分别获得了最高的0.741与0.868,相比于排在第二的 TargetDBP+ 方法高出了3.20%与1.76%。此外,TPSO-DBP 在其他四个指标上也获得了不错的成绩。最后,为了便于广大研究人员使用,研究团队提供了在线 DNA 绑定蛋白质预测服务器 (https://jun-csbio.github.io/TPSO-DBP/)供领域相关研究人员免费使用。
转自:“ACS美国化学会”微信公众号
如有侵权,请联系本站删除!