Genome Biology | 新工具Bookend -使用末端引导组装进行精确的转录本重建
2022/8/1 9:40:12 阅读:230 发布者:
基因的功能取决于它们产生的RNA分子的数量和类型。转录物起始、剪接和多聚腺苷酸化的变化可以产生一系列RNA亚型,对这些RNA变体在发育和疾病过程中的变化进行分类,可以深入了解相应的基因功能。目前,已经开发了一系列的RNA-seq测序技术来分析转录组的不同方面,从链特异性的覆盖整个基因区到选择性的扩增RNA 5′端或者3′端或者两端同时捕获。特别的随着单细胞测序技术的发展,使得能够从单个细胞中扩增全长转录本或从数百万细胞中3′端捕获转录本。与此同时,结合长读长测序平台(PacBio和Oxford)可以捕获连续的DNA和/或RNA分子,并产生端到端的完整转录本序列。但考虑到价格和准确性,目前基于Illumina平台的RNA-seq仍然是基因组转录本测序的主要途径,因此需要通过转录本的组装来获得全长转录本,长期以来,转录本组装的一个主要问题是转录起始位点(TSS)和多聚腺苷酸化位点(PA)的注释不准确。然而,目前的转录本组装方法并没有利用RNA分子开始和结束的信息。
2022年6月29日,Genome Biology杂志在线发表了来自瓦赫宁根大学分子生物学实验室的Michael D. Nodine团队的题为“Bookend: precise transcript reconstruction with end-guided assembly”的研究论文。该研究开发了一种利用多种RNA-seq测序技术产生的RNA的 5′和3′端信息来进行精确发转录组组装(包括单细胞的转录组)的方法。
Bookend可以将来自任何方法获得的RNA-seq reads作为输入,然后与参考基因组进行比对,之后reads将以轻量级末端标记read(ELR)的文件格式存储,该文件记录所有RNA边界特征(5′标签、剪接供体、剪接受体、间隙、3′标签)以及该reads的来源样本,随后通过四个主要步骤对这些reads进行组装:1)对所有比对的RNA序列reads的边界标签进行聚类和筛选,以划分一组独特的基因座 TSS、PAS 和剪接点。2)生成Membership矩阵以重新定义所有与基因座片段相关的比对reads。3)从Membership矩阵中构建重叠图,并且通过将较短的元素折叠成包含它们的元素的方法来简化该有向图。4)对重叠图进行迭代遍历,以解决从TSS到PASs的贪婪路径的最优集。
随后作者通过来自拟南芥花蕾组织的Smart-seq2数据对该Bookend算法进行验证,同时与老牌转录本组装软件StringTie2, Scallop和Cufflinks进行比较。结果表明除了显著的提升了转录本边界的准确性外,Bookend预测的16158条外显子链与TAIR10参考转录本完全匹配,这高于忽略末端标记读取时(13660),并且超过了Scallop(15785)、StringTie2(15253)或Cufflinks(11051)的总数。因此,Bookend正确地构建了比其他组装软件更多的已知转录本,且Bookend注释的5′和3′端甚至比最精确的拟南芥参考注释更精确。除了已知的转录本,Bookend 还构建了 2979 个 TAIR10 中不存在的isoforms,比 StringTie2 (8,886) 少 66%,比 Scallop (17,400) 少 83%,比 Cufflinks (18,934) 少 84%。随后结合PacBio全长转录本数据,Bookend 构建的81.2% 的新isoforms得到 PacBio 数据的支持,超过了 StringTie2 (54.7%)、Scallop (35.9%) 或 Cufflinks (22.3%)。
随后作者也通过混合PacBio全长转录本和RNA-seq数据,以及单细胞转录组数据中转录本的组装来验证Bookend准确性。结果表明Bookend 能够通过过滤PacBio全长转录本中已知的错误来源,获得高质量转录本,并结合不同组织转录组数据获得组织特异表达的转录本。同样也能够从复杂且充满噪音的单细胞 RNA-seq 数据中准确的组装出完整的转录本。
原文链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02700-3
转自:植物生物技术Pbj
如有侵权,请联系本站删除!