投稿问答最小化  关闭

万维书刊APP下载

NBT/GB | 7篇!复旦大学等多单位联合研制全球首套多组学标准物质,为全球推进人类表型组计划奠定坚实的标准基础

2024/2/1 9:18:05  阅读:57 发布者:

各种实验室自行开发的代谢组学方法给跨实验室的可比性和多样数据的有效整合带来了巨大挑战。

2024124日,复旦大学郑媛婷及郁颖共同通讯在Genome Biology 在线发表题为“Quartet metabolite reference materials for inter-laboratory proficiency test and data integration of metabolomics profiling”的研究论文,作为中华家系1号项目的一部分,该研究建立了一套公开可用的四个代谢物参考材料,这些材料来源于一对父母和一对单卵双生女儿的 B 淋巴母细胞系。作者使用有针对性和非有针对性的策略,在不同的实验室中从中华家系1号参考材料生成了全面的基于 LC-MS 的代谢组学数据。

中华家系1号多样本的信噪比使得能够客观评估批内和批间代谢组学分析在检测四组样本之间的内在生物差异方面的可靠性。在不同实验室之间识别到了代谢组学分析可靠性的显著差异。重要的是,基于比率的代谢组学分析通过将研究样本的绝对值与常见参考样本的绝对值进行比例缩放,实现了跨实验室的定量数据整合。因此,作者构建了两个参考样本之间基于比率的高置信度参考数据集,为跨实验室的准确性评估提供了“基本事实”,这使得能够客观评估使用不同仪器和方案进行的定量代谢组学分析。

另外,20231127日,复旦大学石乐明、樊少华,郑媛婷、国家计量研究所王晶及方向等合作在Genome Biology 在线发表题为“Quartet DNA reference materials and datasets for comprehensively evaluating germline variant calling performance”的研究论文,该研究从一个包括父母和单卵双胞胎的家庭中建立了一个DNA参考材料套件,其中包括四个来源于永生化细胞系的样本。整合了420万个小变异和15,000个结构变异的全面参考数据集,并对其进行认证,用于评估基准区域内生殖细胞系变异调用的可靠性。重要的是,”中华家系1号“(Chinese Quartet)家庭设计的内建遗传真相使得能够估计基准区域外变异调用的精度。利用”中华家系1号“参考材料以及研究样本,通过使用”中华家系1号“参考数据集训练机器学习模型来监测和减轻批次效应,以去除潜在的伪变异调用。此外,”中华家系1号“项目的匹配RNA和蛋白质参考材料和数据集使得可以从多组学数据中进行变异调用的交叉验证(点击阅读)。

2023124日,西安交通大学叶凯、吕毅和国家计量研究所王晶共同通讯在Genome Biology在线发表题为“Haplotype-resolved assemblies and variant benchmark of a Chinese Quartet”的研究论文。该研究使用四种短序列和长序列平台(IlluminaBGIPacBioOxford Nanopore Technology)对一个Chinese Quartet(中华家系1号)进行了测序,包括两对单卵双胞胎女儿和她们的生物父母。通过使用亲子遗传图谱,作者将单卵双胞胎女儿的长读取分阶段成父母的单倍型和母体的单倍型。作者还利用长读取生成了单倍型分辨的全基因组组装,其完整性和连续性超过了GRCh38。利用这个”中华家系1号“,作者全面归纳了人类变异景观,生成了一个包含3,962,453个单核苷酸变异(SNVs)、886,648个插入缺失(<50 bp)、9726个大片段缺失(≥50 bp)、15,600个大片段插入(≥50 bp)、40个倒置、31个复杂结构变异和68个在单卵双胞胎女儿之间共享的新生突变的数据集。由于其复杂性在先前基准中被低估的变异,包括位于长重复区域、复杂结构变异和新生突变,都在这项研究中得到了系统的研究(点击阅读)。

202397日,复旦大学郑媛婷、石乐明、钱峰、中国医学科学院张瑞及美国食品和药物管理局Joshua Xu 共同通讯在Nature Biotechnology 在线发表题为“Quartet RNA reference materials improve the quality of transcriptomic data through ratio-based profiling”的研究论文,该研究建立了来自同卵双胞胎家族四名成员的永生化B淋巴母细胞样细胞系的四种RNA参比物质。该研究在两个样本之间构建了基于比率的转录组参考数据集,提供了跨平台和跨实验室的“基础真相”。对“中华家系1号(Quartet)”样本之间内在微妙的生物学差异的调查,可以在比率水平上对转录组测量的跨批次整合进行敏感评估。中华家系1RNA参考材料,结合基于比率的参考数据集,可以作为评估和提高临床和生物学环境中转录组数据质量的独特资源(点击阅读)。

202397日,复旦大学石乐明、丁琛、郑媛婷及中国医学科学院李金明共同通讯在Nature Biotechnology 在线发表题为“Multi-omics data integration using ratio-based quantitative profiling with Quartet reference materials”的研究论文,该研究开发和表征了一套公开可用的多组学参考材料,这些参考材料来自父母和同卵双胞胎女儿的四个家庭的永生化细胞系,包括匹配的DNARNA、蛋白质和代谢物。该研究演示了如何使用基于比率的分析方法来衡量研究样本相对于同时测量的共同参考样本的绝对特征值,从而产生适合跨批次、实验室、平台和组学类型集成的可重复和可比较的数据。该研究确定了无参考的“绝对”特征量化是多空间不可复制的根本原因。

202397日,复旦大学郑媛婷、石乐明及国家计量研究所方向共同通讯在Genome Biology 在线发表题为“Correcting batch effects in largescale multiomics studies using a referencematerialbased ratio method”的研究论文,该研究全面评估了七种基于不同性能指标的批次效应校正算法的性能,这些指标具有临床相关性,即鉴定差异表达特征的准确性、预测模型的稳健性,以及将跨批次样本准确聚类到其各自供体的能力。基于比率的方法,即通过将研究样本的绝对特征值与同时分析的参考材料的特征值进行比例缩放,被发现比其他方法更为有效,而且适用范围更广,特别是当批次效应与研究兴趣的生物因素完全混淆时。该研究进一步提供了在日益大规模的多组学研究中实施基于比率方法的实用指南(点击阅读)。

202397日,复旦大学丁琛、贺福初、郑媛婷和国家蛋白质科学中心秦钧共同通讯在Genome Biology 在线发表题为“Quartet protein reference materials and datasets for multi-platform assessment of label-free proteomics”的研究论文,该研究开发了Quartet标准,作为一个带有内置真值的蛋白质组参考材料,并将相同的小分样品分发给中国六个城市的15个实验室,这些实验室使用了九种传统的LC-MS/MS平台。该研究获得了816个质谱文件中超过12,000个蛋白质的相对丰度数据,并对这些数据进行比较,以评估不同仪器和实验室之间的可重复性,最终生成了蛋白质组学基准数据集。这些数据涵盖了大约7个数量级的广泛蛋白质组动态范围,并且注射顺序对定量特性而不是定性特性产生了显著影响。总的来说,“中华家系1号(Quartet)”为提高蛋白质组学分析的质量控制以及研究结果的可重复性和可靠性提供了有价值的标准材料和数据资源(点击阅读)。

代谢组学是一个强大的工具,用于发现与疾病诊断、预后和治疗效果相关的代谢产物丰度的生物学差异。然而,由于各种仪器和实验室开发的协议引入的技术变异,可靠地检测这些微小的生物学差异是具有挑战性的。此外,在大型代谢组学队列研究中,当集成来自多个批次、跨实验室和长时间测量的数据时,不可避免地会出现批次效应。因此,至关重要的是要确保每批代谢组学测量的可靠性,以及在长期或跨实验室研究中整合多个批次的数据,以便真实的信号(生物学差异)能够与技术噪声(不需要的变异)相区分。

研究总览(

源自Genome Biology

公开可用的参考材料(RMs)在当前实践中进行性能评估方面是不可或缺的。目前,代谢产物 RMs 主要由美国国家标准与技术研究院(NIST)开发和分发,涵盖许多生物样本类型,如血浆、血清、尿液和肝脏。这些各种类型的 RMs 和相应的参考数据集使得能够在不同的情境中评估代谢组学分析的性能。然而,在代谢组学研究中,缺乏来自培养细胞系的可再生代谢产物参考材料,这是代谢组学研究中关键的样本类型。

客观性能评估的质量控制(QC)指标至关重要。可重复性是最广泛使用的 QC 指标之一,例如相关性或变异系数。它通过对共同参考样本的重复测量来评估样本处理和检测过程引入的不需要的变异水平。然而,通过对相同样本的重复测量获得的高可重复性并不保证在各种样本组之间识别固有的生物学差异(即信号)的高分辨率。鉴别差异表达的代谢产物并开发用于分类不同样本组的预测模型是定量代谢组学分析的两个主要目标。因此,与这些研究目的相关的 QC 指标对于评估代谢组学分析的性能至关重要。

准确性是另一个重要的 QC 指标,通过将测得的代谢产物浓度与参考数据集中的“基本事实”进行比较来评估。然而,据作者所知,定义无定向代谢组学参考数据集是不可实现的,其中定量测得的值通常被计算为仪器响应的相对输出,而这在批次、方案、仪器或实验室之间是臭名昭著的不可比较的。为了确保在发现临床生物标志物时准确识别生物学差异,对无定向代谢组学定量的准确性进行评估是必不可少的。因此,迫切需要开发一系列代谢组学技术的质量指标和最佳实践,用于熟练测试。

大规模代谢组学数据的可靠整合是健壮的生物标志物发现和验证的先决条件。即使批内数据质量很高,批次效应在大规模代谢组学研究中随处可见。室内 QC 样品广泛用于单一实验室内的长期测量。通过与研究样品一起进行分析 QC 样品有助于评估每批次测量的稳定性,并通过消除随时间引入的不需要的变异来确保多批次的高效整合。在这种情况下,一个以研究样品混合形式的集体 QC 样品被广泛使用,但它未能确保可靠的数据整合,主要是因为“集体 QC 样品”在研究或实验室之间并不相同。

因此,可靠的数据整合解决方案的缺乏阻碍了对新生物学见解的长期、跨实验室和跨研究的探索。作为中华家系1号项目(chinese-Quartet.org)的一部分,用于多组学分析的质量控制和数据整合,作者建立了公开可用的中华家系1号代谢产物 RMs 和参考数据集。中华家系1号代谢产物 RMs 实现了与研究目的相关的 QC 指标,即基于多样本的信噪比(SNR),用于评估在样本组之间识别固有生物学差异的能力。此外,作者还展示了使用常见参考材料进行基于比率的代谢组学分析,可以在大规模和多中心代谢组学研究中实现长期和跨实验室的数据整合。

原文链接:

https://doi.org/10.1186/s13059-024-03168-z

转自:iNature”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com