2023/6/2 17:18:11 阅读:128 发布者:
来源:
论文ID
题目:A draft human pangenome reference
期刊:Nature
IF:69.504
发表时间:2023年5月10日
通讯作者单位:加州大学
DOI:https://doi.org/10.1038/s41586-023-05896-x
主要内容:
pangenome是一个DNA序列的集合,揭示了个体之间的遗传变异。四位科学家讨论了人类pangenome的产生,以及从中可以获得什么启示。
ARYA MASSARAT和MELISSA GYMREK:用图表描述遗传多样性
参考基因组是基因组分析的关键坐标系统。然而,科学家们目前在研究人类时所依据的参考资料(人类基因组草案和其完整的、无缺口的后继者,被称为T2T-CHM13)都是基于单个的基因组。这种类型的线性基因组序列不能充分代表我们物种内部的遗传多样性。相反,这种多样性使用基于图形的分支和合并路径系统来描述更为准确。在《自然》杂志的一篇论文中,Liao等人描述了第一个人类参考彭根组--一个编入单一数据结构的基因组序列的集合。
使用来自单一个体的人类参考基因组是有问题的,因为它在如何解释来自其他人类基因组的序列方面引入了偏见。例如,来自其他基因组的序列通常首先与参考基因组进行比对(读数映射),然后还原为与参考基因组的一组差异(变体调用)。如果用不同人的DNA来产生原始参考,这两个过程可能会产生不同的结果。这对于基因组中高度多样化和结构复杂的区域来说尤其如此。此外,有几百兆的DNA不能在基于单一基因组的参考中得到,因为它们只存在于人类的一个子集。
一个代表不同祖先的许多基因组的pangenome可以克服这些问题。然而,构建一个pangenome是一项复杂的任务。过去十年中,长读测序技术和计算方法的突破现在已经使这一设想得以实现。
Liao及其同事首先从47个个体(每个个体携带的两套染色体中的一套)生成了94个基因组组合。这些个体代表了来自全球各地的不同血统。组装的基因组是使用长线读数和其他测序技术的组合产生的,是高度准确和几乎完整的,包括了人类参考基因组草案中没有包括的1.19亿个碱基对的序列。
作者使用了三种造图方法从这些组合中构建庞然大物。其中一种方法同时对齐所有的序列;其他方法使用一个基因组作为参考,并迭代地对齐每个后续的序列。其结果是一套公开可用的pangenome图,以及丰富的开源工具和标准化的文件格式,研究人员可以以类似于线性参考基因组的方式使用。
Liao等人证明,使用他们的pangenomes进行读数映射和变体调用,在调用小变体(那些短于50个碱基的变体)时,比使用线性参考基因组的错误少34%。这种差异在具有挑战性的重复性DNA区域尤其明显。令人印象深刻的是,庞氏基因组使作者能够识别出每人两倍的大型基因组改变,称为结构性变异(图1),这是使用线性参考的可能性。
人类泛基因组参考是人类遗传学的一个里程碑。然而,挑战依然存在。通过更精确的组合或新的算法,可以改进针对人类彭格列基因组中高度可变的重复区域的序列比对。还需要更多来自不同群体的样本。最后,科学家广泛采用angenome可能需要时间,因为支持angenome分析的新方法正在不断开发,而科学家往往需要培训才能使用这些方法。
建立和使用angenomes的方法的不断改进将使研究人员能够克服这些挑战。使用pangenomes有可能改变人类基因组学。这最终将使我们更容易发现介导身体和临床特征的基因变异,并且--希望--最终将为许多人带来更好的健康结果。
BRIAN MCSTAY & HÁKON JÓNSSON: 解除重复序列的束缚
重复性DNA区域的测序具有挑战性,因为很难将它们准确地放在基因组组合中。这些区域包括节段性重复(其中长度超过一千碱基的序列在基因组的其他地方重复)和染色体的一个子集的短臂(p-臂),被称为共心染色体。现在,《自然》杂志的两项研究利用Liao及其同事的庞然大物来系统地探索这些区域--Guarracino等人分析了共轭P臂,Vollger等人研究了节段性重复。他们的工作让我们看到了可以从庞然大物参考中获得的洞察力。
同心染色体(人类的chr13、chr14、chr15、chr21和chr22)是那些p臂比另一个(q)臂短得多的染色体。同心的p臂专门用于一项任务:形成称为核小体的部位,细胞的蛋白质组装机器就在这里制造。P臂包含核小体组织区(编码驱动核小体形成的RNA)、高度重复的DNA和许多其他共享序列。这种共享的、重复的DNA反映了一种叫做异源重组的现象,即在产生精子和卵子的细胞分裂过程中,不同的共轭P臂配对并交叉交换DNA。相比之下,在大多数染色体中,配对和交叉仅限于同一染色体的两个拷贝(同源重组)。
在XY性染色体中,也表现为异源重组,配对由X和Y之间共享的短的同源性区域(近乎相同的序列)来帮助。Guarracino等人利用Liao及其同事的序列构建了一个共心p臂的变异图,并发现它们含有假同源性区域(PHRs)。每个PHR是由一些序列块组成的,正如作者在将他们的图与T2T-CHM13进行比较时发现的那样,这些序列块与T2T-CHM13中的其他四个同心P臂的相似性往往比与T2T-CHM13版本的相似性更高。据推测,这些区块有助于异源重组,确保p-臂协同进化,以保持它们在核极形成中的共同作用。
罗伯逊易位(ROBs)是一种现象,通常发生在卵细胞生产过程中,即两个共轭染色体的q臂融合,大部分p臂丢失。Guarracino等人确定了导致ROB的断裂发生在PHRs中的序列--表明ROB是异源重组产生的附带损害。鉴于每800个人类新生儿中就有一个发生ROB,我们推测共轭染色体之间的异源重组是持续和频繁的。我们预计,随着更多的基因组被添加到pangenome参考中,将有可能对这种重组的频率进行量化。
Vollger等人利用该参考文献系统地比较了节段性复制与基因组非重复部分的变异(图1)。他们发现节段性复制中的序列多样性要高60%,并表明这些复制在种群和个体之间有很大的差异。
节段性复制中的基因很容易受到焦点间基因转换(IGC)的影响--在复制区域的非同源部分之间交换短DNA序列。Vollger和他的同事们通过寻找庞然大物中序列洗牌的迹象来确定IGC事件,并得出结论,这些事件可能是节段性复制如此多样化的主要原因之一。他们发现有799个基因的蛋白质编码区域受到IGC的影响。
看到对节段性复制的准确描述是令人兴奋的,因为复制的序列可以为一个基因的新的、专门的作用的进化提供动力。Vollger等人评估了重复基因的序列 "约束",特别是对那些在人类血统进化过程中的重复基因感兴趣。约束力是对序列变异性的一种衡量,变异性越小说明突变对生物体的生存能力越不利。有38个基因受到限制,包括NOTCH2基因家族的成员,该家族与人类在进化过程中大脑大小的特定变化有关。节段性复制的重复性以前曾导致对至少40%的分析基因的约束性进行评估的困难。作者还发现,有171个基因被复制后完整地迁移到了新的基因组区域,这可能意味着它们的调控将被重新构建。在未来,pangenome项目应该使研究人员能够更深入地评估最近复制的基因的约束性。
这些论文一起提供了一个关于如何使用人类pangenome参考文献的试探。它们揭示了我们基因组的重复区域之间的序列交换是如何对人群中的变异和我们的进化作出贡献的。随着参考资料范围的扩大,我们期待着对这些迷人的基因组区域有更深入的了解。
原文链接:https://www.nature.com/articles/s41586-023-05896-x
转自:“生物医学科研之家”微信公众号
如有侵权,请联系本站删除!