Hortic Res | RAfilter:一种基因组重复区域中假阳性比对的检测和过滤算法
2023/3/14 16:55:07 阅读:315 发布者:
基因组从头组装是基因组学的基础问题之一。长期以来,由于着丝粒、端粒、核糖体DNA和转座子等重复区域的高度复杂性,大型真核生物基因组的组装极具挑战性。近年来,由于测序技术的进步和组装技术的发展,一些物种的参考基因组质量有了很大的提高,甚至达到端到端(T2T)组装级别。尽管如此,大部分的物种仍然无法产生完整的参考基因组,且个别已经产生的完整参考基因组耗费了大量人工手动操作。这很大程度上是由重复序列比对的困难性造成的。由于重复单元的高度相似性,现有常用比对工具在重复区域会产生相当数量的假阳性比对,进而造成组装错误。由于目前不存在专门过滤重复序列假阳性比对的算法和工具,在基因组组装项目中往往需要大量人工操作去区分重复区域的正确比对和错误比对,严重影响了项目进展的速度和组装结果的质量。
2023年1月,Horticulture Research在线发表了中国农业科学院(深圳)农业基因组研究所组学中心/华中农业大学信息学院潘玮华研究员等人题为 RAfilter: An Algorithm for Detecting and Filtering False-positive Alignments in Repetitive Genomic Regions 的研究论文。
图1 RAfilter算法的原理图
为解决这一难题,本研究提出了一种新算法RAfilter,用于去除现有比对工具输出的假阳性比对。该算法利用组装中的稀有k-mer(在初步组装中,频次小于5的k-mer)为每个比对分配一个kMAPQ(类似于minimap2中使用的MAPQ)分数,该分数表示假阳性的可能性,用户可以设置一个适当的阈值来删除kMAPQ低于它的对齐。算法主要分为两个部分,一是确定稀有k-mer在参考序列和查询序列中的位置,二是以“最长递增序列”算法为核心,对比对中两条序列的稀有k-mer的值和排列进行匹配评估,并返回kMAPQ,以对假阳性比对进行过滤。
本研究结果表示,RAfilter能在保证准确性的前提下,有效的去除重复区域的假阳性比对。在串联重复中,对于HiFi reads的比对过滤,RAfilter的准确性几乎达到100%,在chm13,1号和2号染色体的着丝粒重复区域的灵敏度分别超过60%和80%,这意味着RAfilter能够在没有错误检测的情况下检测大多数假阳性比对。尽管ONT数据的结果比HiFi差,但准确性和灵敏度分别达到了约50%和80%。散列重复的实验结果与串联重复的结果相似,使用HiFi比对,RAfilter能够在不去除正确比对的情况下过滤90%的假阳性比对。使用ONT比对,准确性和灵敏度分别达到约50%和80%。并且得益于k-mer的整数化与位运算,RAfilter有着较高的性能表现。
图2 RAfilter在串联重复评估。图中的“Threshold” 表示一个阈值, kMAPQ低于该阈值的比对将被过滤掉。A、 B和C是1号染色体上的结果,而D、E和F是2号染色体的结果。
图3 RAfilter在散弹重复中的评估。图注参考图2。
中国农业科学院(深圳)农业基因组研究所组学中心/华中农业大学信息学院潘玮华研究员为本文的通讯作者,博士研究生杨金宝、硕士研究生赵贤嘉、科研助理蒋和灵、杨映雪博士为本文的共同第一作者。太原理工大学硕士研究生侯育泽也参加了该研究。感谢深圳市科技计划(RCBS20210609103819020)和国家自然科学基金(Grant No. 32100501)对该项目的资助。
作者团队介绍
潘玮华 研究员
潘玮华课题组致力于基因组学相关算法的开发与应用,主要利用HiFi、ONT、Hi-C、Bionano光学图谱等测序数据进行复杂基因组组装(如端到端组装、多倍体基因组分型组装、宏基因组组装等)方面的算法和软件开发。
文章链接:
https://doi.org/10.1093/hr/uhac288
转自:“园艺研究”微信公众号
如有侵权,请联系本站删除!