投稿问答最小化  关闭

万维书刊APP下载

Genome Biology|T2T组装时代的多基因组比对

2022/9/29 16:28:28  阅读:417 发布者:

在上亿年的进化历程中,基因组经历了大大小小的改变。例如从小的核苷酸突变、插入、缺失到大的基因缺失、重复、基因组重排和水平基因的转移。虽然通过单个基因组我们已经可以产生很多新的发现,但是基因组与基因组之间的关系才是理解基因组功能及其背后进化历史的关键。新测序技术的出现使得高分辨率基因组组装成为可能,并为回答许多复杂的生物学问题提供有力支持。随着基因组端粒到端粒(T2T)组装时代的到来,给准确和高效构建多基因组之间的比对(multiple genome alignments)带来了前所未有的计算挑战。作为比较基因组学研究的基础,multiple genome alignments (MGS) 主要是通过识别基因组中共同的祖先核苷酸序列,帮助我们进一步理解基因组功能及其背后的进化历史。

2022829日,Genome Biology在线发表了一篇题为“Multiple genome alignment in the telomere-to-telomere assembly era”的综述文章。作者介绍了MGA的概念和基本的分析算法及流程,对未来高分辨率、多基因组时代的MGA发展进行了展望。

1. MGA概念和流程

多基因组比对(MGA)首先是通过对基因组中的部分序列进行比对(MSA, multiple sequence alignment)为其分配同源关系。MSA只能捕获小的插入缺失与点突变,而对于倒位、易位和大片段仍无法检测,尽管MSA存在一定的缺陷,但其是研究同源关系的第一步,是准确构建系统发育树的前提。在完成第一个全基因组测序之后,早期人们试图对全基因组进行大规模的MSA实现MGA,但后来证明其无法实现。反过来,另外一种方法通过对齐整个基因组序列,找到基因组的同源区域并使用MSA算法进行比对;而对于MSA无法处理的非同源区域进行建模。总的来说MGA两种思路的关键核心问题都是如何正确找到这些同源区域。

2.进化关系及其对基因组比对的影响

在经过数十亿年的进化后,插入、删除、替换和重排在基因组中无处不在,而同源区域的准确识别是比较基因组学的基础,是推断进化历史的关键。同源区域可以进一步的分为直系同源物 (orthologs )和旁系同源物 (paralogs),直系同源物是只由于物种形成事件而产生的同源序列,而旁系同源物是指通过复制事件形成的同源序列(图1)。虽然直系同源物更有可能执行相似的功能,但是旁系同源物是推动进化的主要来源。因此基因家族不准确的构建可能会导致系统发生树的错误推断,确定两个同源物是直系同源物还是旁系同源物仍旧是一个具有挑战的问题。

1:不同类型同源物的进化示例。

3.识别基因组中的同源区域

由于MGS包含两个步骤:1.查找不同基因组间的同源区域。2.对齐这些同源区域。成对的局部序列比对一直是鉴定和比较基因组之间同源片段的重要方法。首先基因组两两之间鉴定高度相似的片段,随后将这些片段进行合并从其中提取高度相似的区域,这样被称为多重局部比对( multiple local alignments)。成对的局部比对时进行全基因组比对的基础,但当同源区域的边界不太确定时该方法仍不太适用。

随着DNA测序通量的增加,同时算法效率的进步,导致公共基因组数据库呈指数级增长(图2)。在比较基因组研究时,加入越来越多的基因组,这意味着MGA的规模也越来越大,但是进行MGA研究的算法和软件的开发显然没有跟上步伐。由于全基因组比对的输入序列比MSA更长,并且序列结构多样化,因此几乎所有的MGA算法都使用两个步骤来解决问题:首先在多个锚点序列中识别高度相似的区域,然后使用这些锚点以识别基因组中更大的无重排区域,该区域也被称为局部共线性区块(LCB)。

2NCBI中不同真核物种中可用基因组数量。

如上所述,序列的长度、基因组重排、插入与缺失都是MGA需要考虑的问题。首先是锚点的鉴定,需要在基因组子集之间鉴定保守良好的同源区块(图3)。这些锚点被用于构建多个基因组间的局部共线性区块,并进行多序列比对。为了识别这些共线性区块,块数据通常以图形数据结构进行表示,使用算法对齐进行操作以识别大型局部共线性区块。接下来研究人员回顾了锚点确定、共线性区块鉴定等方法。

3MGA流程图。

4.锚点的鉴定

大多数锚点鉴定算法以两种方式分类:成对锚点或者多个锚点、精确或者近似区域。成对或者多个锚点不言而喻,指的是在两个基因组中确定锚点区域还是多个基因组中;而精确性则是使用精确匹配还是近似匹配,这两种方法之间权衡的是速度与灵敏度。

4.1Pairwise-Exact: MUMmer

MUMer组件是用于成对基因组比较的工具集,其中mummer工具通过查找两个基因组中最大精确匹配,并丢弃不唯一的匹配项。nucmer作为一个成对比对工具,匹配两个基因组中靠得很近并且以相同顺序出现的无重排序列。

4.2 Pairwise-Approximate: LastZ

为了获得锚点,LastZBlast方法类似,即使用X-drop方法从种子序列中计算有效的有间隙拓展和无间隙拓展,对所有得分低于某个阈值的比对都丢弃,只留下高分比对(HSP)。

4.3 Multiple-Exact: Parsnp

Parsnp 通过使用 (CSG) 来发现 MGA 的锚点,以获得所有输入基因组中存在的最大唯一匹配。Parsnp 因此特别适用于亲缘关系比较相近的基因组,因为 MUM 的数量随着序列的分歧而下降。

4.4 Multiple-Approximate: ProcrastAligner

ProcrastAligner使用种子和拓展的策略,以在尽可能多基因组中找到锚点的方式。

5.构建比对数据的图形数据结构

比对数据的图形化展示提供了一种直观的方法进行可视化并实现并行化计算。为了描述局部共线性块的结构,作者列举了以下图形化算法:A-BruijnEnredoCactusde-Bruijn

6.局部共线性区块构建

在给定一组以图表示的锚点后,下一步是识别这些锚点中的局部共线性区块(LCB)。虽然使用最初获得的锚点就已经足以构建LCB,但这些锚点通常比较嘈杂,并且可能包含一些微重排和组装错误。因此为了获得更长和更可靠的LCB,首先需要移除一些嘈杂的锚点,并在LCB区域重复锚点的鉴定和LCB构建。本文提供了一系列用不同锚点表示的LCB构造算法。例如ProgressiveMauveMugsyEnredo-Pecan alignerCactus alignerSibeliaZ等。

最后研究人员从如何对结果进行验证和基准测试、提高计算效率、改进锚点锚点鉴定方法、优化LCB构建和基于网络感知的MGA5个方面对MGA的发展进行了展望。

原文链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02735-6

转自:“植物生物技术Pbj”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com