投稿问答最小化  关闭

万维书刊APP下载

Anal. Chem. 封面 | 基于深度学习的肽段可检测性预测及其在DIA谱库缩减中的应用

2023/6/26 9:47:17  阅读:178 发布者:

英文原题:DeepDetect: Deep Learning of Peptide Detectability Enhanced by Peptide Digestibility and Its Application to DIA Library Reduction

通讯作者:付岩,中国科学院数学与系统科学研究院

作者:Jinghan Yang (杨婧涵), Zhiyuan Cheng (程志远), Fuzhou Gong (巩馥洲) and Yan Fu* (付岩)

背景介绍

生物质谱能够一次性对样品中大量蛋白质进行快速、准确、高效的分析,已经成为高通量蛋白质组学中最重要的技术之一。蛋白质首先会被特异性水解酶酶切为肽段,再通过质谱仪检测生成相应的串联质谱数据,最后基于对质谱数据的解析完成对肽段和蛋白质组的研究。然而,在质谱实验中,并不是所有理论上的肽段都能被检测到,造成了质谱数据的随机性和解读上的困难性。在靶向定量蛋白质组学中,可检测的、唯一的肽段常被作为一些重点关注蛋白的代表,并用于其靶向定量分析。对数据非依赖采集(Data-Independent Acquisition, DIA)质谱数据的分析往往需要构建所有理论肽段的预测谱库,带来极大的存储和计算上的开销。因此,准确的肽段可检测性预测能够对蛋白质组学的实验设计和数据分析提供有力帮助。

近几年,深度学习技术被用于肽段可检测性的预测,表现出了比传统机器学习算法更高的性能,但仍然存在一些明显不足,限制了预测精度和实际应用。首先,深度学习的主要优势在于能直接从原始数据中提取出有效的抽象特征,但已往的深度学习算法大多基于人工设计的肽段特征,未能充分发挥其优势。其次,蛋白质酶切作为蛋白质组学分析流程中的一个关键步骤,极大地影响着质谱检测的结果,但现有的深度学习算法都没有考虑该因素。另外,目前依然缺乏针对多种水解酶的预测工具,难以满足实际应用的需求。

文章亮点

近日,中国科学院数学与系统科学研究院付岩研究员团队开发了一种基于氨基酸序列预测肽段可检测性的深度学习算法DeepDetect,该算法通过肽段酶切概率特征增强预测性能,并且适用于八种常用水解酶。与目前最好的同类算法相比,DeepDetect表现出了更高的精度和更强的鲁棒性。针对DIA谱库规模庞大而导致的计算复杂度过高的问题,利用DeepDetect预测的肽段可检测性对整个谱库进行了过滤,在不损失肽段和蛋白鉴定灵敏度的情况下,大幅缩减了谱库规模,显著加速了搜库过程。相关研究成果近期作为封面文章发表在 Analytical Chemistry 期刊上。

封面图:利用人工智能(深度学习)技术实现对肽段可检测性的准确预测和质谱库的筛选

图文解读

DeepDetect算法的输入为肽序列及其关联的酶切位点周围的氨基酸序列,通过预测肽段的酶切概率增强肽段可检测性的预测效果。算法主要基于一个双向长短时记忆(Bidirectional Long-Short Term Memory, BiLSTM)网络,输入的肽序列经由词嵌入层学习表示为定长的向量,再由BiLSTM提取序列特征,输出一个预测概率值。同时,输入肽序列N端、C端及其(若存在)漏切位点周围的氨基酸序列,通过作者此前发表的酶切概率预测算法DeepDigestAnalytical Chemistry, 93:6094-6103, 2021)进行酶切概率预测。最终,结合BiLSTM预测概率值和肽段酶切概率预测值计算得到最终的肽段可检测性预测值。

1. DeepDetect流程图

为了全面评估算法的性能,作者使用了涵盖八种常用酶(包括trypsinArgCchymotrypsinGluCLysCAspNLysNLysargiNase)的19个多仪器、多物种的公开数据集进行了训练和测试。与目前最好的同类算法PepFormer相比,DeepDetect表现出了更高的精度和更强的鲁棒性,并且实验表明肽段酶切概率也能够增强PepFormer的预测性能。

2. DeepDetectPepFormer加入肽段酶切概率特征前后的独立测试精度(AUC)对比

另一方面,由于肽段酶切概率和肽段可检测性之间有着较强的相关性,前者也可以看作后者的一种粗略的预测。于是,作者还考虑了另一个性能较好的肽段酶切概率预测算法dpMC,并用其替换了原来的肽段酶切概率预测算法DeepDigest,进一步与DeepDetect进行了比较。结果表明,单独使用肽段酶切概率预测算法的效果不太理想,而作为一维特征时DeepDigest的预测值对准确预测肽段可检测性的贡献更大。

3. dpMCDeepDigestAP3PepFormerDeepDetect(加入肽段酶切概率前后)的独立测试精度(AUC

最后,作者利用DeepDetect预测的肽段可检测性对DIA谱库进行了过滤,在不损失肽段和蛋白鉴定灵敏度的情况下,大幅缩减了谱库规模,并显著加速了搜库过程。特别地,先基于肽段可检测性预测值对谱库进行降序排列,当过滤到前40%时,DIA-NN软件在PlasmaYeast两个数据集上的搜库时间减少了42.6%14.8%,而肽段和蛋白的鉴定量甚至有略微提升,并且此时的鉴定结果能覆盖92.497.7%的完整谱库的搜库结果。

4. DIA-NN搜索不同百分比过滤谱库的鉴定肽段(# Precursors)、鉴定蛋白(# Protein Groups)以及鉴定耗时(Time Cost (sec)

综上,DeepDetect是一个高精度的、鲁棒的、适用于多种常用酶的肽段可检测性预测工具,有望在未来更多蛋白质组学的研究中发挥作用。

转自:ACS美国化学会”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com