随着测序和组装技术的快速发展,全基因组从头拼装开始逐渐走向了群体规模,并部分的取代了二代重测序技术,应用于群体和多物种的基因组学研究。与二代全基因组重测序技术相比,从头拼装具有能检测到长片段的插入、缺失、倒位、易位等复杂变异的优势。全基因组比对作为基因组序列分析最主要的技术之一,其在群体及数量遗传学研究、基因组进化、系统发育关系、功能序列的识别等方面扮演重要角色,是深入理解基因组序列之间的进化关系、功能差异的核心技术。
现在常用的基因组比对软件大都是由研究人类基因组的科学家针对人类、大鼠、小鼠、黑猩猩等哺乳动物的基因组特点进行开发和优化的。随着近年来越来越多的植物基因组被测序和从头拼装,我们逐渐意识到植物基因组和动物基因组有许多不同的特点:
很多亲缘关系较近的植物之间存在全基因组复制和染色体重新排列组合等差异。
植物基因组中的转座子非常活跃,因而引入了大量的重复片段。
活跃的转座子造成不同基因组之间存在大量长的插入、删除的差异。
相比于哺乳动物基因组,通常植物基因组之间存在更多的SNP(比较经典的例子是两个玉米自交系之间的遗传变异,大于人类与黑猩猩之间的差异)。
图1 植物基因组有许多不同于哺乳动物基因组的特点
这些植物基因组的特点对两两基因组比对和多基因组比对技术提出了不同于哺乳动物的、严峻的挑战。目前针对植物基因组开发的基因组分析工具十分匮乏,严重阻碍了对日益积累的植物基因组的解析。
文章系统总结了数十年来基因组比对软件的算法;根据植物基因组的特点首次提出了全基因组复制(whole-genome duplication aware)比对方法的概念;阐述了多等位基因的普遍性和重要性;展望了未来植物群体规模从头基因组拼装时代,物种内和物种间进行基因组比对以及数量遗传学、群体遗传学分析面临的技术挑战和发展方向。
单碱基水平的序列比对和两两基因组比对技术
经典的序列比对技术是动态规划算法,Needleman-Wunsch algorithm(NWA)和Smith-Waterman algorithm(SWA)诞生于上世纪八九十年代,其时间及内存消耗与待比对的两个序列长度的乘积成正比,计算耗时长、内存消耗大。Banded 方法减少了NWA及SWA的计算资源消耗,但它可能产生非最优比对结果。而Hirschberg算法可以将经典算法的内存消耗降低一个数量级。得益于近些年CPU技术的进步,动态规划算法结合单指令多数据(SIMD)指令集可使比对时间缩短十倍以上。2020年发表的wavefront 算法的内存消耗与输入序列的长度不直接相关,而是与输入序列间的不相似性相关,因而其可以比对更长的序列。
由于计算资源消耗极大,全基因组比对并不是对同源染色体序列进行从头到尾的全局序列比对。即使未来对每一对同源染色体的全局比对在计算消耗方面具有了可行性,但动态规划算法产生的比对具有固定的顺序和方向,使其无法识别倒位或易位等基因组重排变异。此外,当物种发生过全基因组复制时,物种间基因组某些序列的对应关系也不是一对一的。
seed-and-extend或seed-chain-extend方法可以高效的进行大规模的序列比对,该策略通过使用共有的k-mers或者共线性的共有k-mers作为seed向两侧延伸,产生一个近似的最优比对。该思想已经被广泛应用到包括全基因组序列比对的多种序列比对问题。但是在不同源的重复序列区域也会找到共有的k-mer,会产生假阳性的序列比对结果。当序列差异较大时,同源序列之间可能不存在共有的k-mer,最终不会被比对。这类广泛用于哺乳动物基因组序列比对的方法对于具有高度序列多样性以及大量重复元件的植物基因组的比对效果不好。因此应用在哺乳动物研究中广泛使用的基因组比对软件进行植物基因组研究时,要十分小心。
图2 seed-and/chain-extend全基因组序列比对的基本技术流程
另外一个策略是利用系统发育关系近的基因组的大规模共线性特性。其包括共线性图谱构建,以及使用全局比对算法对每一个共线性区块进行单碱基分辨率的序列比对结果两个步骤。通常使用两个基因组共有的k-mer或者保守的序列片段作为锚点或者节点构建图模型,使用动态规划算法计算图模型的最优路径。这些方法在长indel比对方面表现良好,并且具有较高的灵敏度。得益于最新全局序列比对算法计算效率的提升,minimap2和AnchorWave采用了该策略。
多基因组比对
许多进化分析是基于多个物种样本进行的。多序列比对是多基因组比对的起点,经常被用于系统发育及进化分析。多序列比对通常使用全长输入序列进行比对,类似于全局比对。多序列比对在研究多个个体间的变异类型及保守序列时,可以用来对多个个体之间的插入和缺失进行归一化。
图3 多序列比对能将indel进行归一化
基于动态规划算法的多序列比对由于过长的处理时间及过高的内存消耗而不具有可行性。多序列比对通常使用渐进式算法进行优化和加速。MAFFT、MUSCLE、 CLUSTAL、T-coffee等多序列比对软件都采用了渐进式算法。
在一些全基因组重排分析技术的辅助下,这些渐进式多序列比对的方法也被扩展到了全基因组尺度。例如,ROAST从成对的基因组比对输出结果渐进地构建多物种全基因组比对。Cactus也是采用渐进性的比对策略,通过重构祖先序列的方法进行多基因组比对。但是如果把Cactus应用与植物多物种的全基因组比对,还需要解决多倍体差异的技术挑战。
植物基因组染色质组织方式与哺乳动物不同
不同植物物种的基因组大小相差很大,其通过染色体3D结构的折叠等方式来减少插入片段对正向调控序列和被调控基因之间的关系的影响。植物基因组中的顺式作用元件不一定调节与其临近的基因,多个相邻的基因可能受到共同的调节。共表达基因可能具有功能的联系。因此在比对过程中识别染色体间共线性区块十分必要。应用于植物的基因组比对软件应该能够正确的识别共线性基因模块,并对共线性的基因区和基因间区都进行精确的序列比对。目前,AnchorWave使用了该策略,NGSEP 4也提出了类似的方案,但是还没有在其软件中实现。
全基因组复制及其伴随的染色体重排在植物中普遍存在
目前许多软件仅简单假设序列间一对一同源,在一个基因组中的某段序列只比对到另一个基因组中的一个序列。与动物相比,许多植物在进化历程中发生过多倍体化。多倍化的植物基因组又可以通过染色体重排和染色体片段丢失的方式重新二倍化。这类全基因组复制和随后发生的重新二倍体化对全基因组序列比对带来了极大的技术挑战。
quota-alignment,MCScan-X,CoGe等使用编码基因作为锚点识别基因组、亚基因组间的共线性区块。AnchorWave改进了该思想,其可以产生碱基水平的全基因组比对结果,是首个whole-genome duplication aware的基因组序列比对软件。
但是截止到目前为止,还没有软件能自动的对存在全基因组复制差异物种的基因组进行多基因组比对的分析。
不同长度的插入缺失造成的多态性
indel突变对基因组造成影响的总碱基数通常远大于SNP,并且indel的差异能引起表型的差异。DNA复制过程中产生的错误以及损伤修复不完善导致短indel的产生,转座子以及非等位基因的同源重组导致长indel的产生。植物中的转座子活性高、进化快,造成了较多长indel。
一些软件通过识别全基因序列比对结果中不发生序列比对的位置来间接的识别长indel。SyRI、 Assemblytics 和其他自定义流程,通过考虑沿着一条序列的每一对连续的比对、这些比对的间隔和方向来识别indel,但是识别的indel最大长度不超过10kbp。minimap2和AnchorWave通过采用2-piece affine gap 得分的全局比对算法产生长indel的比对,从而能直接的识别不同长度的indel。
图4 多种全局序列比对得分策略的比较
多等位变异在植物群体中普遍存在
由于植物基因组中普遍存在indel和结构变异,SNPs经常和这些变异有位置重叠,因而形成多等位变异。
图5 SNP与indel在位置上重叠,从而形成多等位变异
使用二代测序技术对植物群体分型时,经常把多等位变异简化为二等位变异(biallelic)。在植物群体中,不同长度的indel、倒位、易位经常会发生重叠。转座子也会插入到先前已经存在的转座子中,即嵌套转座子。这些嵌套的SNP及indel变异与非嵌套相比很可能具有不同的功能。考虑到长indel和倒位会影响基因组的很大一部分序列,因而这种嵌套变异在植物群体中很普遍。值得一提的是,现有的大部分群体遗传学和数量遗传学的理论框架和软件是基于双等位基因的。在未来基因组能正确的识别了多等位基因后,如何进行群体遗传学和数量遗传学的分析,也将对相应的基础数学模型提出技术挑战。
图6 indel与indel在位置上重叠,从而形成多等位变异
图形基因组可能是利用多等位基因进行进化生物学、群体遗传学和数量遗传学研究的一个技术方案。最近十年,许多物种的图形泛基因组已经被构建,并作为群体规模二代测序数据比对的图形参考基因组。随着基因组测序价格的进一步下降,基因组重头拼装技术有望在未来取代现有的短读长全基因组重测序技术,图形参考基因组期望在不久的将来会被更加普遍使用。
北京大学现代农业研究院为论文第一和通讯单位。康奈尔大学的Michelle C. Stitzer博士为论文的并列通讯作者,世界著名植物遗传学家Edward S. Buckler是文章的共同作者。该文章得到了国家自然科学基金(No.31900486)等项目的资助。
宋宝兴博士近些年来在植物基因组序列分析领域开发了多种算法,发表在PNAS、Genome Research、PLoS Genetics 等杂志。课题组现招聘2名具有较好图算法和动态规划算法背景的人员开发前沿的植物基因组序列分析方法,可以提供博士研究生、博士后、副研究员或软件工程师等岗位。有兴趣的同事请发邮件到 songbaoxing168@163.com 进行联系。
参考消息:
https://www.cell.com/trends/plant-science/fulltext/S1360-1385(23)00275-3
转自:“iNature”微信公众号
如有侵权,请联系本站删除!