投稿问答最小化  关闭

万维书刊APP下载

NBT/GB | 6篇!复旦大学等多单位联合研制全球首套多组学标准物质,为全球推进人类表型组计划奠定坚实的标准基础

2024/1/3 17:34:32  阅读:40 发布者:

基因组DNA参考材料被广泛认可为确保组学研究数据质量的关键。然而,仅依赖参考数据集来评估变异调用结果的准确性是不完整的,因为它们局限于基准区域。因此,开发能够评估整个基因组变异检测性能的DNA参考材料变得至关重要。

20231127日,复旦大学石乐明、樊少华,郑媛婷、国家计量研究所王晶及方向等合作在Genome Biology 在线发表题为“Quartet DNA reference materials and datasets for comprehensively evaluating germline variant calling performance”的研究论文,该研究从一个包括父母和单卵双胞胎的家庭中建立了一个DNA参考材料套件,其中包括四个来源于永生化细胞系的样本。整合了420万个小变异和15,000个结构变异的全面参考数据集,并对其进行认证,用于评估基准区域内生殖细胞系变异调用的可靠性。

重要的是,”中华家系1号“(Chinese Quartet)家庭设计的内建遗传真相使得能够估计基准区域外变异调用的精度。利用”中华家系1号“参考材料以及研究样本,通过使用”中华家系1号“参考数据集训练机器学习模型来监测和减轻批次效应,以去除潜在的伪变异调用。此外,”中华家系1号“项目的匹配RNA和蛋白质参考材料和数据集使得可以从多组学数据中进行变异调用的交叉验证。

另外,2023124日,西安交通大学叶凯、吕毅和国家计量研究所王晶共同通讯在Genome Biology在线发表题为“Haplotype-resolved assemblies and variant benchmark of a Chinese Quartet”的研究论文。该研究使用四种短序列和长序列平台(IlluminaBGIPacBioOxford Nanopore Technology)对一个Chinese Quartet(中华家系1号)进行了测序,包括两对单卵双胞胎女儿和她们的生物父母。通过使用亲子遗传图谱,作者将单卵双胞胎女儿的长读取分阶段成父母的单倍型和母体的单倍型。作者还利用长读取生成了单倍型分辨的全基因组组装,其完整性和连续性超过了GRCh38。利用这个”中华家系1号“,作者全面归纳了人类变异景观,生成了一个包含3,962,453个单核苷酸变异(SNVs)、886,648个插入缺失(<50 bp)、9726个大片段缺失(≥50 bp)、15,600个大片段插入(≥50 bp)、40个倒置、31个复杂结构变异和68个在单卵双胞胎女儿之间共享的新生突变的数据集。由于其复杂性在先前基准中被低估的变异,包括位于长重复区域、复杂结构变异和新生突变,都在这项研究中得到了系统的研究(点击阅读)。

202397日,复旦大学郑媛婷、石乐明、钱峰、中国医学科学院张瑞及美国食品和药物管理局Joshua Xu 共同通讯在Nature Biotechnology 在线发表题为“Quartet RNA reference materials improve the quality of transcriptomic data through ratio-based profiling”的研究论文,该研究建立了来自同卵双胞胎家族四名成员的永生化B淋巴母细胞样细胞系的四种RNA参比物质。该研究在两个样本之间构建了基于比率的转录组参考数据集,提供了跨平台和跨实验室的“基础真相”。对“中华家系1号(Quartet)”样本之间内在微妙的生物学差异的调查,可以在比率水平上对转录组测量的跨批次整合进行敏感评估。中华家系1RNA参考材料,结合基于比率的参考数据集,可以作为评估和提高临床和生物学环境中转录组数据质量的独特资源(点击阅读)。

202397日,复旦大学石乐明、丁琛、郑媛婷及中国医学科学院李金明共同通讯在Nature Biotechnology 在线发表题为“Multi-omics data integration using ratio-based quantitative profiling with Quartet reference materials”的研究论文,该研究开发和表征了一套公开可用的多组学参考材料,这些参考材料来自父母和同卵双胞胎女儿的四个家庭的永生化细胞系,包括匹配的DNARNA、蛋白质和代谢物。该研究演示了如何使用基于比率的分析方法来衡量研究样本相对于同时测量的共同参考样本的绝对特征值,从而产生适合跨批次、实验室、平台和组学类型集成的可重复和可比较的数据。该研究确定了无参考的“绝对”特征量化是多空间不可复制的根本原因。

202397日,复旦大学郑媛婷、石乐明及国家计量研究所方向共同通讯在Genome Biology 在线发表题为“Correcting batch effects in largescale multiomics studies using a referencematerialbased ratio method”的研究论文,该研究全面评估了七种基于不同性能指标的批次效应校正算法的性能,这些指标具有临床相关性,即鉴定差异表达特征的准确性、预测模型的稳健性,以及将跨批次样本准确聚类到其各自供体的能力。基于比率的方法,即通过将研究样本的绝对特征值与同时分析的参考材料的特征值进行比例缩放,被发现比其他方法更为有效,而且适用范围更广,特别是当批次效应与研究兴趣的生物因素完全混淆时。该研究进一步提供了在日益大规模的多组学研究中实施基于比率方法的实用指南(点击阅读)。

202397日,复旦大学丁琛、贺福初、郑媛婷和国家蛋白质科学中心秦钧共同通讯在Genome Biology 在线发表题为“Quartet protein reference materials and datasets for multi-platform assessment of label-free proteomics”的研究论文,该研究开发了Quartet标准,作为一个带有内置真值的蛋白质组参考材料,并将相同的小分样品分发给中国六个城市的15个实验室,这些实验室使用了九种传统的LC-MS/MS平台。该研究获得了816个质谱文件中超过12,000个蛋白质的相对丰度数据,并对这些数据进行比较,以评估不同仪器和实验室之间的可重复性,最终生成了蛋白质组学基准数据集。这些数据涵盖了大约7个数量级的广泛蛋白质组动态范围,并且注射顺序对定量特性而不是定性特性产生了显著影响。总的来说,“中华家系1号(Quartet)”为提高蛋白质组学分析的质量控制以及研究结果的可重复性和可靠性提供了有价值的标准材料和数据资源(点击阅读)。

从高通量DNA测序(DNA-seq)中检测生殖细胞系变异对于生物医学研究和罕见以及复杂遗传疾病的分子诊断至关重要。充分表征的基因组参考材料可用于基准测量程序、校准测量系统和确定标志性标准,从而支持基因组测序在基础研究和临床实践中的可靠应用。Genome in a BottleGIAB)和其他努力已经建立了各种全基因组参考材料,并定义了用于基准测量生殖细胞系小变异(SNVsindels)和结构变异(SVs)的基准调用和区域。然而,所有这些基因组参考材料的努力仅评估了在基准区域内识别的变异。

基准区域是部分经过充分表征和验证的整个基因组区域。当使用基于独立基准参考材料的参考数据集评估变异调用结果的性能时,只能评估这些基准区域内的变异。然而,对于测试基因组生成和分析的序列的全范围大于基准区域的定义。许多在基准区域外检测到的变异被忽视了,包括许多在医学上相关的变异。此外,基准调用和区域通常是从各种测序技术和生物信息学流程中整合的,因此偏向于易于检测的基因组上下文。使用基准区域内变异调用性能作为代理将高估DNA测定或生物信息学流程在整个基因组区域上的总体性能。此外,忽略基准区域外的变异将阻碍对现有测序技术限制的客观了解,从而阻碍了进一步的方法开发。

单卵双胞胎的研究设计和数据生成(

源自Genome Biology

此外,在许多组学技术的实际应用中,尤其是在大规模队列研究中,样本通常不可避免地在相对较长的时间内由多个测序平台在多个中心进行处理。由于实验条件和测序仪器的不一致性,这些大规模项目通常会受到批次效应的影响。在DNA测序中,批次效应很大程度上被忽视,但它们的普遍存在可能导致错误地将批次特异性工件视为真实的生物发现。基因组参考材料是识别和减轻DNA测序中批次效应的有效工具。基因组参考材料可以与每个批次的测试样本一起进行测序,以确定批次效应是否存在。根据从基因组参考材料中检测到的真阳性和假阳性的性质,可以选择适当的阈值来消除每个批次的批次特异性工件。

为了解决DNA测序及其它问题,作者从一个”中华家系1号“家庭的EBVEpstein-Barr virus)永生化淋巴细胞系建立了四个DNA参考材料。该家庭包括生物父母和单卵双胞胎女儿。该”中华家系1号“来自中国中部的复旦台州队列,具有中国北方和南方人口的遗传特征。作者使用多个短读取和长读取测序平台对”中华家系1号“参考样本的整个基因组进行了广泛测序。作者为”中华家系1号“参考样本的每一个集成了小变异和结构变异基准集,以评估基准区域内的变异调用准确性。

双胞胎的基因组几乎相同,期望的生殖细胞系新生变异数少于每代30个,从细胞培养中引入的体细胞突变少于1000个。检测到的变异中梅登遗传违规的数量远远超过了预期的生殖细胞系新生变异和体细胞突变的数量,表明大多数违规是测序或调用错误。”中华家系1号“成员的家谱信息不仅有助于通过消除明显高质量的额外假阳性变异来提高基准集的特异性,而且还促进了对基准区域外变异的假阳性率的估计。”中华家系1号“DNA参考材料的多样化测序数据还使作者能够识别整个基因组测序中存在的批次效应。”中华家系1号“家庭信息被进一步用于开发基于机器学习的批次特异性过滤策略,以去除假阳性并提高批间的可重复性。

该研究是”中华家系1号“项目的一部分,该项目旨在进行多组学分析的质量控制和数据集成(http://chinese-quartet.org/)。除了DNA参考材料之外,”中华家系1号“项目还从相同的永生化”中华家系1号“细胞系培养中建立了匹配的RNA、蛋白质和代谢物参考材料。为DNA参考材料定义的基准集有助于根据中心法则评估来自RNA和蛋白质数据的变异调用准确性。有关该项目发现的整体论文,转录组学,蛋白质组学,代谢组学,批次效应监测和校正以及”中华家系1号“数据门户的相关论文可在其他地方找到。

原文链接:

https://doi.org/10.1186/s13059-023-03109-2

转自:iNature”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com