近年来,随着HiFi和Nanopore等长读长测序技术的快速应用,基因组学得到了迅猛发展,目前已完成上万个物种基因组的组装,但这些基因组的质量参差不齐。为了客观地描述或比较这些基因组的质量,出现了各种各样的评估软件和方法。然而,即使对于相同的指标,使用不同的参数或流程也会造成输出结果的差异,不同项目之间的基因组难以进行横向比较。因此,亟待开发全面客观的基因组组装质量评估工具,建立标准化的基因组质量评估体系。
2023年5月26日,Journal of Genetics and Genomics在线发表中国农科院深圳农业基因组研究所阮珏研究员团队题为“GAEP: a comprehensive genome assembly evaluating pipeline”的方法型研究。该研究整合了现有的常用基因组组装评估工具,开发了一套可以一步完成基因组组装质量评估的新流程GAEP (https://github.com/zy-optimistic/GAEP),同时引入两个新模块,能够不依赖于参考基因组,准确地检测基因组中的组装错误,评估基因组组装的冗余性。
GAEP可基于二代、三代测序以及转录组测序数据,评估基因组组装序列的连续性、准确性、完整性和冗余性,生成包括序列长度、contig/scaffold数量、Nx等基础指标。同时集成了BUSCO脚本,用于评估同源基因的完整性。除此之外,GAEP引入了两个新开发的模块。其中,组装错误断点检测模块利用了三代测序长读长的特点,通过分析三代序列比对到基因组的插入、删除和剪切位点,将这些位点合并成候选断点区域,并使用深度信息进行过滤。与QUAST和Inspector等同类型软件相比,该模块能够更有效地识别组装错误。此外,由于基因组组装杂合冗余区域的序列比对深度会降为总体测序深度的一半,二倍体杂合单碱基变异(SNV)密度会低于总体SNV密度,该研究开发了SNV-Cov图模块,可以直观地评估基因组组装的冗余度或对冗余度不同的基因组进行比较。
基因组组装质量评估流程(GAEP)
A: 维恩图显示四类组装评估指标在近期已发表基因组工作中的使用情况(http://www.ehbio.com/test/venn)。B: GAEP基因组组装评估方法概览。C: GAEP组装错误断点检测流程。D: 三种不同杂合度的水稻基因组组装的SNV-Cov图,其中箭头所指示的次要簇显示出前两个基因组出现了冗余,且冗余的程度与次要簇的密度呈正相关。
综上所述,GAEP简化了基因组组装质量评估的工作步骤,为发布更高质量的基因组提供了支持,对建立和完善标准化基因组质量评估体系具有重要意义。
作者简介
中国农科院深圳农业基因组研究所研究生张勇和中国水稻研究所特聘副研究员鲁宏伟为该论文共同第一作者,中国农业科学院深圳农业基因组研究所阮珏研究员为通讯作者。相关工作得到国家重点研发计划和中国博士后科学基金资助。
引用本文
Yong Zhang, Hong-Wei Lu, Jue Ruan. (2023). GAEP: a comprehensive genome assembly evaluating pipeline. Journal of Genetics and Genomics.
DOI:10.1016/j.jgg.2023.05.009
(该文是JGG快速通道论文,于2022年5月9日投稿,5月13日返修,5月19日作者返回修改稿,5月23日稿件接收,5月26日在线发表。)
第一作者面对面
张勇、鲁宏伟(从左至右)
自我介绍
张勇:我来自河南省,硕士毕业于中国农科院深圳农业基因组研究所,专业是生物信息学。
鲁宏伟:我是山东烟台人,现就职于中国水稻研究所的基因编辑与无融合生殖课题组,课题组长是王克剑研究员。目前我的主要研究方向为水稻无融合生殖体系优化及机制解析。
目标或愿景
张勇:希望能够接触到不同领域的研究,拓宽自己的视野。
鲁宏伟:尽快在新的研究领域发表自己的代表性成果。
你心目中最喜欢或敬仰的科学家
张勇:弗雷德里克·桑格。桑格教授提出了DNA和蛋白质测序方法,并两次获得了诺贝尔奖,为如今的基因组学领域奠定了基础。
鲁宏伟:上海师范大学的黄学辉教授。我从博士阶段就在读黄老师的文章,现在仍然在学习黄老师的研究成果。无论是水稻的进化研究和杂交优势机制的解析,黄老师一直走在相关领域的前沿,为我的研究提供了非常多的启发和指引。
如何向你的家人朋友介绍研究的内容和意义?
张勇:生物的基因组序列很大,因此我们需要将序列打断进行测序,再将得到序列组装成基因组。这样的组装不可避免的会出现错误,而想要得知我们组装的基因组质量是否可用于后续的分析则需要进一步判断。我们开发的GAEP软件可以从基因组组装连续性、完整性、准确性以及冗余度等方面对基因组组装进行全面客观的评估,简化了现有的复杂步骤,对发布高质量基因组起到推动作用。
鲁宏伟:基因组序列中蕴含着生物主要的遗传信息,解析基因组序列,有利于我们更好地了解生物演化的历史和未来。但在基因组序列解析的过程中非常容易引入一些错误,干扰我们对遗传信息的解读。我们开发的这个软件,可以帮助我们更好检测和评估基因组中的组装质量,对后续利用基因组序列开展生物学研究具有重要的意义。
在课题研究过程中,你遇到过什么特别的困难,是如何克服的?
张勇:在研究过程中最大的困难是经常会产生迷茫的情绪,不知道我们所做的研究是否有意义。文章的共同作者鲁宏伟师兄给予我许多的帮助和鼓励,让我有了继续做下去的信心。
鲁宏伟:在课题的研究过程中,确实遇到过一些问题,比如开发新的评估方法,设计合理的模拟实验验证算法的效果等等。这些问题在科研过程中是很常见的,我们一般是通过课题组内部讨论来解决。特别是课题组组长,往往会给出建设性意见,帮助我们更好的解决这些问题。
在得知论文被接收后,你的感觉是什么?
张勇:这篇文章在投稿过程中经历了不少波折,文章接收对我来说是一个阶段的完结,也比较开心。
鲁宏伟:文章接受后感觉是非常高兴和欣慰的,因为我们的研究工作终于可以发表了,可以被更多的人看到我们的成果。希望有更多的人用到我们的软件,为基因组质量提供一个客观的评价参数体系。
在你的研究领域中,你认为最具挑战性的科学问题是什么?
张勇:我认为当前基因组领域中最具挑战的科学问题在于基因组的功能注释。虽然目前已经有许多基因组功能元件被注释,但仍然有很大一部分是未知的。破译这些未知的功能元件可以帮助人类更好的理解生命进程。
鲁宏伟:我现在研究的对象是水稻,在水稻中已克隆了大量的功能基因,有的已经得到广泛地应用,但是在水稻的每个细胞中,这些基因是如何互相作用,如何共同完成水稻发育过程的精准调控,是我目前最感兴趣的科学问题。
图文来源:JGG 遗传学报公众号
转自:“植物生物技术Pbj”微信公众号
如有侵权,请联系本站删除!