Cell子刊：西湖大学郭天南/郑钜圣团队建立AI模型，基于血清蛋白组预测代谢综合征风险

2023/9/6 16:28:19　阅读：205　发布者：

代谢综合征（MetS）是一种复杂的代谢紊乱，其特点为腹部肥胖、动脉粥样硬化性血脂异常、高血压、胰岛素抵抗、中心性肥胖、促凝血和促炎症状态。全球成年人中约有20-25%患有MetS。中国成年人中，2018年MetS的患病率达到24.2%（男性24.6%，女性23.8%）。

MetS可导致几种严重疾病，包括糖尿病、心血管疾病、冠心病和一些常见癌症。早期预测和诊断MetS将有助于更快地进行干预，减轻医疗系统的负担。因此，纵向的大型队列人群研究是必要的，可以有效预测MetS的发展并探索其发病机制。

基于质谱（MS）的蛋白质组学的快速发展为大规模队列蛋白质组学研究提供了坚实的技术支持。该项技术能够以极小的样品量（微升级）进行高通量、可重复的分析。数据非依赖性采集（DIA）质谱可以测量所有离子化的多肽母离子，适合于在大规模人群中无偏倚地发现新的生物标志物。

2023年8月30日，西湖大学郭天南、郑钜圣及中山大学陈裕明教授作为共同通讯在 Cell Reports Medicine 期刊发表了题为：Population serum proteomics uncovers a prognostic protein classifier for metabolic syndrome 的研究论文。

该研究基于一个随访10年以上的社区队列人群建立了近2万例血清蛋白质组学数据库，并构建了机器学习（Deep Learning）模型前瞻性预测代谢综合征在10年内的患病风险。

在这项研究中，研究团队收集了来自3840名参与者，十年两次随访的7890个样本。我们使用DIA-MS方法检测了约20,000个蛋白质数据中的400多个蛋白质。

基于这个血清蛋白质组学库，研究团队建立了一个机器学习模型用于预测在十年内发展为代谢综合征的风险。此外，还探索了与代谢综合征相关的新潜在生物标志物和通路，为代谢综合征的发病机制和靶向治疗提供了参考。

图1：研究内容概览，纵向人群队列的血清蛋白质组学分析

该研究纳入了3840名来自广州营养与健康研究队列（GNHS，ClinicalTrials.gov标识符：NCT03179657）的参与者。血清样本在三个时间点进行采集：3479份样本在基线（2008-2010年）采集，2638份样本在第二次随访（2014-2017年）采集，1773份样本在第三次随访（2018-2019年）采集。

基线、第二次随访和第三次随访组的中位年龄分别为57.4岁（38.2-80.4岁）、63岁（44.3-83.3岁）和66.1岁（46.8-86.2岁），其中女性参与者占比分别为69%、68%和69%。随后，我们将血清样本随机分为发现队列（n=4794）和验证队列（n=3094）（图2），然后进行独立的样本制备、质谱数据采集和数据分析。

图2：人群队列的血清蛋白质组学数据采集流程

根据年龄和性别，研究团队随机将4796份发现队列血清样本分成178个批次样本，每批包含29份血清样本、两份生物学重复样本（血清样本重复处理两次）和一份质控（QC）样本（混合血清样本），此外我们还纳入了质谱质控样本（混合多肽样本，MS-QC）和技术重复样本（多肽样本重复进样两次）以确保整个工作流程的稳定性（图2）。

使用DIANN软件，得到了一个包含583个蛋白质和11,646个质谱数据的蛋白矩阵。接着我们排除了低鉴定量（低于中位数蛋白鉴定结果的75%（<245））的样本和高缺失率（超过80%）的蛋白质，并使用ProteomeExpert 对批次效应进行了校正（图3B）。

该研究还评估了质谱质控样本，生物重复，技术重复的中位数皮尔逊相关系数（r），结果显示了整个工作流程中质谱仪的高稳定性，数据的高一致性和可重复性（图3A, C）。将r > 0.8的重复数据的定量结果进行了填充与合并，用于后续的数据分析。同样的数据处理方法也应用于验证队列的数据处理中。

最后，在发现队列中，研究团队获得了一个包含4637个样本和438个蛋白质，缺失值为19.0%的蛋白质矩阵（图2）；在验证队列中，我们获得了一个包含3067个样本和413个蛋白质，缺失值为18.4%蛋白质矩阵（图2）。

图3：质控数据结果，基于蛋白质，用于预测代谢综合征发生的分类器

对于发现队列，研究团队在基线时间点收集了一组样本（图4A），包括第二或第三次随访时被诊断为代谢综合征的267个非代谢综合征样本（实验组）和任何时间点都未被诊断出代谢综合征的588个非代谢综合征样本（对照组）。

利用这些数据，研究团队构建了一个机器学习模型来评估血清蛋白质预测在十年内发生代谢综合征的风险的能力（图4B）。最终模型的特征包括载脂蛋白A-I（APOA1）、性激素结合球蛋白（SHBG）、载脂蛋白D（APOD）、年龄、玻连蛋白（VTN）、吸引素（ATRN）、簇因子（CLU）、肝素辅因子2（SERPIND1，HCII）、α-1B-糖蛋白（A1BG）、载脂蛋白C-II（APOC2）、免疫球蛋白重链变量区域4-39（IGHV4-39）和载脂蛋白B-100（APOB）（图4C）。

研究团队使用随机选择的内部验证数据集对模型进行测试，得到AUC为0.784，表明该模型可以有效预测在十年内发生代谢综合征的风险（图4D）。最后，使用来自独立验证队列的242个样本进行模型测试，得到AUC为0.774（图4D）。

由于验证队列的样本数量相对较小，与发现队列相比，所选特征在模型应用于验证队列时的显著性排名可能会波动。然而，主要特征，如APOA1、年龄、APOD和VTN仍然相对稳定（图4C）。这些结果表明所选特征是稳定的，可以很好地推广到独立采集的样本，并且在模型中使用的蛋白质可能作为有前景的生物标志物候选者。

图4：机器学习模型构建流程和结果

研究团队还指出了该研究的一些局限性。首先，该研究使用了一个短梯度、高通量蛋白质组学工作流程，这更适合于分析人群队列样本，相对的，鉴定到的血清蛋白的深度有限。其次，这些发现和验证队列来自同一个城市。因此，这些结果需要应用于来自不同地区的独立人群进行后续研究。

西湖实验室的西湖智能蛋白质组中心（www.prottalks.com），聚焦人工智能赋能的蛋白质组研究，致力于蛋白质组大模型的建设和转化。西湖实验室郭天南团队蔡雪、薛张芝、岳靓、暨南大学曾芳芳，西湖实验室郑钜圣团队唐俊、西湖欧米（杭州）的王博为共同第一作者；西湖实验室郭天南、郑钜圣研究员、朱怡副研究员、中山大学陈裕明教授为共同通讯作者。该研究得到了西湖实验室、西湖大学高性能计算中心、西湖教育基金会以及国家自然科学基金、浙江省自然科学基金等基金项目的资助。

郭天南，西湖大学生命科学学院长聘研究员，终身副教授，西湖实验室智能蛋白质组中心主任，西湖大学未来产业研究中心兼聘研究员，国家高层次人才专家，长期从事蛋白质组学相关研究，联合人工智能，解析生物过程的原理，助力疾病诊疗。更多信息请看www.guomics.com. 郭天南团队工作获得了国家自然科学基金委、国家科技部、浙江省自然科学基金委、杭州市、西湖大学和西湖实验室等经费的支持。团队诚邀对构建蛋白质组大模型感兴趣的有志青年加盟，欢迎联系guotiannan@westlake.edu.cn。

西湖大学生命科学学院郑钜圣团队致力于精准营养与计算医学领域的研究，基于人体和人群生物大数据，结合基因组、代谢组、微生物组和蛋白质组等手段，在人群层面探索发现人类疾病的全新营养或者药物干预靶点。近几年，郑钜圣团队已经在营养与人体肠道微生物组领域做出了一系列原创性发现（Nat Comm 2023; Gut 2022; Diabetes Care 2021; Diabetes Care 2020; Microbiome 2020）。欢迎有志者于精准营养或者计算医学等多学科交叉研究的朋友加盟（email: zhengjusheng@westlake.edu.cn）。

论文链接：

https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(23)00325-7

转自：“生物世界”微信公众号

如有侵权，请联系本站删除！

上一篇： Cancer Cell：利用人工智能对脑转移瘤分类，揭示其对神经环路的影响
下一篇： Cell子刊：李明/向华团队揭示CRISPR护卫RNA的全新生理功能

投稿问答最小化 关闭

Cell子刊：西湖大学郭天南/郑钜圣团队建立AI模型，基于血清蛋白组预测代谢综合征风险

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

Cell子刊：西湖大学郭天南/郑钜圣团队建立AI模型，基于血清蛋白组预测代谢综合征风险

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭