投稿问答最小化  关闭

万维书刊APP下载

通过长读长RNA-seq检测到较高频率的内含子保留,该现象可能影响基因表达调控

2022/11/25 10:13:30  阅读:382 发布者:

在转录过程中,多个剪接体可以平行作用于同一转录本,去除被称为内含子的序列片段,并剪接外显子。内含子保留(RI)是一种选择性剪接的形式,在转录处理完成后,一个预期的内含子仍然被保留下来。人类高达80%的蛋白质编码基因中有RI的发生,该现象可能影响基因表达调控。

在包括癌症和衰老在内的各种疾病背景下,人们对保留的内含子越来越感兴趣。人们开发了许多软件工具来从短RNA-seq序列中检测保留的内含子,但由于基因和转录本重叠以及未处理或部分处理的RNA的存在,难以进行可靠的检测。

20221111日,美国 俄勒冈健康与科学大学的Abhinav Nellore团队在Genome biology上发表了名为“Retained introns in long RNA-seq reads are not reliably detected in sample-matched short reads”的研究论文。文章中作者将8种基于短读长RNA-seq序列的检测软件检测到的内含子保留,与来自同一样本的使用长读长RNA-seq序列进行分析所检测到的内含子保留进行了对比。作者发现不同软件之间存在明显的不一致,即47.7%的内含子保留没有被多个工具调用,而且大多数软件的性能较差。作者认为使用短读长RNA-seq序列的检测软件检测到的内含子保留的召回率和精度较差,并对之前检测出的内含子保留的完整性和有效性提出了质疑。

作者首先针对同一样品分别进行短读长RNA-seqIlluminas HiSeq)和长读长RNA-seqPacBio Iso-Seq RS II long-read platforms)。然后分别对得到的数据进行了处理和分析,再将短读长RNA-seq序列基于短读长RNA-seq序列的内含子保留检测软件来进行检测。作者发现,样品中大多数的内含子被完全剪切掉了。同时作者发现样品中80%的基因在软件中检测到至少一个RI。而长读长RNA-seq得到的序列则是直接与参考基因组进行对比,得到被保留的内含子。

接下来,作者检测了用8个软件得到的RI的数据质量(精度、查全率和f1分数),并将其与从长读长RNA-seq数据中识别出的内含子保留进行了比较。在大多数情况下,利用短读长序列的检测软件得到的数据质量较差,大多数被软件检测到的RI既没有在长读长RNA-seq数据中被识别,也没有在8个软件中被一致调用。由于每个软件都能够以不同的严格程度调用RIs,作者将所有潜在RIs(该工具检测到的所有表达的内含子)的原始集与被该软件筛选过后的RIs的相应内含子子集上的数据进行对比以评估软件的表现情况。作者发现软件的严格程度不是通过保留持续的RI和去除假阳性指标来提高整体性能,而是以牺牲召回率为代价提高了精度,这使得不同软件的F1分数通常有轻微的相应改进。

之后,作者分析了每个软件得到的的真阳性(TP)、假阳性(FP)和假阴性(FN)的RIs集中内含子的特性,作者发现绝大多数软件都在识别较短RIs上有一定困难。同时在所有软件中,假阳性比真阳性和假阴性更长,在转录本中分布也更集中。

该研究是首次利用来自同一样本的短读和长读RNA-seq数据,以评估短读RI检测软件的质量。这项研究还建立了一种新的度量标准,可以捕捉到内含子在使用深度长读RNA-seq处理时在转录本中的持久性,并首次探讨了转录过程中剪接进程的潜在影响和内含子序列的虚假来源。我们发现,短读工具检测RI的召回率和精度都很差,这让人们对大量由常用方法调用的假定保留内含子的完整性和有效性产生了疑问。

原文链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02789-6

转自:“植物生物技术Pbj”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com