Nature:"半自动 "二倍体基因组组装方法
2022/11/18 8:36:32 阅读:281 发布者:
论文ID
题目:Semi-automated assembly of high-quality diploid human reference genomes
期刊:Nature
IF:69.504
发表时间:2022年10月19日
通讯作者单位:洛克菲勒大学
DOI:https://doi.org/10.1038/s41586-022-05325-5
主要内容:
对组装DNA序列的各种方法进行了评估,以确定产生高质量参考基因组的最佳方式,这些参考基因组将来可以合并成人类的 "pangenome"。然后使用产生最佳结果的组合方法来组装一个人的两套染色体。
广泛使用的人类参考基因组GRCh38,虽然在过去20年中逐步得到了修正,但它是由许多匿名志愿者生成的不完整的综合体,有许多空白以及结构和序列的不准确性。此外,人类单倍型(从父母一方继承的基因序列的集合)的单一线性表示不能充分代表人类全球基因组多样性的广泛范围。人类单倍体参考联盟(HPRC)试图以 "单倍体 "图的形式向社会提供一个更加准确和完整的人类参考基因组,以捕捉这种多样性,包括人类群体中出现的多种遗传变异(甚至是相对罕见的变异)。实现无错误的二倍体人类基因组的第一步是组装无间隙和无错误的参考序列,这些序列来自一些个体,可以被组合成pangenome图。这样的pangenome有望彻底改变基因组学中基于参考基因组的应用,从全基因组关联研究到根据一个人的基因进行干预的精准医疗,提供新的和越来越准确的信息。
从2020年开始,我们测试了测序技术和自动基因组组装算法中的现有最佳实践。这些测试是在一个个人的细胞系上进行的,这个人已经完全同意他们的全序列数据被公开,并用于基准测试。我们包括了该人父母的基因样本,以便使用母-父-子三人组数据进行组装。这使我们能够根据其父母的来源对个体的单倍型进行分类,这个过程称为单倍型分期。
利用这些数据,我们进行了一次 "组装竞赛",向国际基因组界开放,挑战研究人员利用这些数据以近乎自动化的方式产生最完整和准确的基因组。这一努力产生了23个基因组组合,用23种方法生成。对60多个指标的广泛评估导致了一种结合了不同策略以获得最高分数的方法。关键因素是在组装过程中使用母-父-子三重数据来解决子代的单倍型,而不是在组装之前或之后,以及同时合并不同类型的序列数据和组装工具,而不是按顺序。通过已有的和新的方法,我们产生了高质量的二倍体基因组序列--即来自父母双方单倍型的序列(图1)。我们的研究有三个主要成果。首先,它确定了不同的最先进的组装算法和工作流程的优点和缺点,使研究人员能够选择合适的方法来使用他们的数据和开发人员来解决缺点。第二,这项研究使HPRC能够确定并应用性能最好的方法来为pangenome制作人类基因组装配。第三,它产生了迄今为止组装的最高质量和最完整的二倍体人类基因组。
未来的方向
作者的研究结果强调了在使用装配工具为每个个体生成两个独立的、染色体水平的装配方面的显著变化,代表了整个基因组的两种单倍型。他们还表明,有可能获得一个主要是自动化的、单倍型阶段性的、接近端粒到端粒完整的组装(即所有的染色体几乎都是端到端的组装,很少有错误和缺失的序列)。
一个尚未解决的目标是开发二倍体基因组组装方法,以消除在基因组的复杂和高度重复区域发现的剩余差距和错误。这种错误往往出现在形成中心点的序列中(结构通常靠近染色体的中心,参与细胞分裂),出现在由重复序列组成的长段DNA中,以及出现在中心点和核糖体DNA阵列(编码参与蛋白质合成的核糖体RNA的DNA)靠近其末端的染色体短臂上。
HPRC的工作将刺激创新方法的发展,以进一步提高人类和其他物种基因组的质量和完整性。
原文链接:https://www.nature.com/articles/s41586-022-05325-5
转自:“生物医学科研之家”微信公众号
如有侵权,请联系本站删除!