NC | 非模式物种蛋白质功能预测和网络构建新工具
2023/8/10 9:16:35 阅读:39 发布者:
理解生物体的生长和发育对于生物学至关重要,这需要我们探究生物过程中不同部分之间的相互关系,包括生化途径、基因表达调控和细胞间的相互作用。虽然研究通常集中在模式物种上,但这些物种并不能完全代表整个生物多样性。在非模式物种中,调控蛋白质(如激酶或磷酸酶)的功能注释不足,这妨碍了我们对生物学的深入了解。为了解决这个问题,深度学习方法为我们提供了一种新途径,可以直接从蛋白质序列数据库中预测其功能。虽然已经有一些深度学习算法被应用于预测DNA序列功能,例如DeepBind、DeepSea、DanQ和TBiNet,用于预测DNA序列的功能,如转录因子结合位点等,但是尝试预测蛋白质序列功能的方法还相对较少。
近日,来自美国北卡罗莱纳州立大学的Rosangela Sozzani课题组在《Nature Communications》上发表题为“Functional annotation of proteins for signaling network inference in non-model species”的文章,作者将深度学习模型与隐马尔可夫模型相结合,设计了一个多层神经网络,可以直接从任何蛋白质序列中提取隐藏特征并将其分类为蛋白质家族,进而将其推断为潜在的信号网络。
为了深入了解细胞行为和有机体的成长发育,研究人员通过计算方法模拟了基因和蛋白质之间的相互作用。以往,研究常使用隐马尔科夫模型(HMMs)来注释蛋白质的功能,但这些模型在捕捉复杂的蛋白质家族内部关系时存在局限。为了解决这个问题,研究人员设计了一个名为PF-NET(Protein Family Classification NETwork)的神经网络,它包括了卷积神经网络层(CNN)、注意力层、双向长短时记忆网络层(biLSTM)和稠密层,可以将蛋白质序列分成996个家族(图1)。通过实验,PF-NET的准确率达到了91.9%,加权准确率、召回率和 f1 得分分别为 91.7%、91.9% 和 91.7%。特别值得一提的是,CNN 和 biLSTM 对于 PF-NET 的分类表现非常重要。通过对测试数据的评估,作者还更加详细地研究了PF-NET对每个蛋白质家族的性能。总体而言,超过一半的蛋白质家族(50.9%)都被认定为高性能家族,其 f1 得分高于 85.0%。其中,激酶和磷酸酶的性能表现较为突出,暗示了作者的神经网络在鉴定这些蛋白质上优于传统的 HMM 方法(图1)。总的来说,作者的方法可以促进蛋白质功能的准确预测。
图1:PF-NET的蛋白分类表现评估。
为了深入研究信号网络,研究人员计划使用PF-NET来预测大豆中的调控蛋白质功能。但是,由于植物中这些蛋白质(激酶和磷酸酶)的实验验证受限,评估PF-NET的性能变得有些困难。因此,为了评估神经网络在功能性预测激酶和磷酸酶方面的效果,研究人员选择了酿酒酵母(Saccharomyces cerevisiae)作为基准物种。他们使用完整的酵母蛋白组作为独立的基准数据集,对所有蛋白质进行了功能预测,特别关注磷酸酶和激酶。通过将预测结果与115个经过生化实验证实的激酶和38个验证过的磷酸酶进行比较,研究人员对预测性能进行了评估(图2)。结果显示,他们成功地识别出了许多蛋白质,其中34个预测为激酶的实际上被归类为未确认。与传统的HMMER方法相比,PF-NET表现出类似的预测结果,但它能够预测出一些被认为是激酶或磷酸酶的蛋白质,而HMMER却无法实现这一点(图2)。
图2:酿酒酵母中激酶和磷酸酶的功能预测。
鉴于作者的神经网络在酵母蛋白质上表现出了良好的预测表现,作者推断神经网络在植物蛋白质上也会表现出良好的预测表现。为了验证这一点,作者将PF-NET的结果与已发表的蛋白质分类研究和HMMER进行了比较。神经网络在拟南芥的激酶和磷酸酶方面显示出97%和95%的召回率(图3)。在大豆激酶方面,作者观察到类似的表现,召回率为98%,假阳性率为1%(图3)。在PF-NET新预测的大豆激酶中(20个蛋白质),发现其中13个蛋白质具有与蛋白质磷酸化相关的分子功能。总体而言,作者证明了PF-NET在植物数据集上表现出良好的预测表现,并能预测不同物种间蛋白质的功能。此外,作者还使用 PF-NET 鉴定了320 个大豆磷酸酶(图 3)。
图3:拟南芥和大豆激酶和磷酸酶的神经网络预测。
为了模拟激酶/磷酸酶及其底物之间的调控相互作用,作者开发了一种网络推理方法,该方法使用 PF-NET 的预测作为先验知识。由于这种方法不依赖于已知的激酶基序或蛋白质相互作用数据,因此作者可以将其应用于基本上无法获得此类数据的物种,例如大豆。为了检测冷胁迫下关键的调节因子,作者绘制了大豆激酶和磷酸酶列表与下游底物之间的调控网络。作者在 Cytoscape 中可视化调控网络(图4)。膜相关的 TOT3 和 TOI5 是拟南芥和小麦热胁迫的两个已知调节因子,表明冷胁迫和热胁迫之间存在共同的调节机制。有趣的是,在热胁迫下,TOT3 被证明发挥主导作用,而作者的网络推断预测,在冷应激下,TOI5 更为重要(图4)。总的来说,作者使用从PF-NET中提取的信息来构建一个分析管道,以便对信号通路进行注释和探索。
图4:大豆叶片冷胁迫的信号通路。
为了深入了解磷酸酶功能和进化,作者对多个物种(玉米、小麦、高粱和水稻)进行预测,并将预测结果合并到一个综合列表中,并进行了蛋白质组范围的系统发育分析。作者对包括拟南芥和大豆在内的所有六个物种的系统发育分析,将磷酸酶分配到 229 个同源组。总共,其中61个同源组包含10种或更多磷酸酶,总共约占预测磷酸酶的60%(图5)。磷酸酶的73个同源组在所有六个物种中共有,这表明这些磷酸酶可能对植物的发育发挥着至关重要的作用(图5)。正如预期的那样,系统发育物种树中的第一个分叉将双子叶植物和单子叶植物分开(图5)。另外30个和8个同源组分别仅在单子叶植物和双子叶植物中共享,表明这些同源组中的磷酸酶具有进化分歧后特有的功能(图5)。
图5:拟南芥、大豆、小麦、玉米、高粱和水稻中预测的磷酸酶的进化保守性。
总的来说,作者开发了一个蛋白功能预测的工具PF-NET,而后利用其结果,作者开发了一种数据驱动的网络推理方法。这个强大的工具可以极大地改善蛋白质功能注释,从而可以显着推进系统生物学研究。
原文链接:
https://www.nature.com/articles/s41467-023-40365-z
转自:“植物生物技术Pbj”微信公众号
如有侵权,请联系本站删除!