投稿问答最小化  关闭

万维书刊APP下载

揭示全长mRNA分子中的RNA编辑位点 | Genome Biology

2023/8/14 11:45:45  阅读:54 发布者:

作者:加州大学洛杉矶分校Xinshu Xiao团队

加州大学洛杉矶分校Xinshu Xiao教授团队和合作者近期在基因组学期刊 Genome Biology 上发表题为“L-GIREMI uncovers RNA editing sites in long-read RNA-seq”的论文。该研究论文首次报道了针对第三代测序技术长读长RNA-seq数据开发的RNA编辑位点分析算法L-GIREMI

相比于二代测序技术,三代测序技术具有测序数据序列读长很长的独特优势。基于二代测序的RNA-seq需要对mRNA分子进行打断才能测序,所以其得到的数据往往是mRNA分子的序列片段,来自相隔较远的外显子的序列数据往往需要通过复杂的统计分析拼凑出可能的外显子组合形式。而基于三代测序的长读长RNA-seqlong read RNA-seq)则可以对全长的mRNA进行测序,从而可以获得准确的外显子的组合方式。长读长RNA-seq为分析特定条件下的RNA剪接机制提供了更多可能性。

人体细胞中有多种RNA编辑形式存在,其中以腺嘌呤到次黄嘌呤(A-to-I)的RNA编辑最为普遍。ADARadenosine deaminase acting on RNA)基因家族编码的RNA腺苷脱氨酶是人体细胞内A-to-I RNA编辑的主要执行者。ADAR蛋白质可以识别并结合双链RNA,通过脱去RNA上腺苷的氨基来将其转换为次黄苷。人体细胞中的A-to-I RNA编辑主要发生在数量相对丰富的Alu重复序列区域,因为RNA分子上的相邻且朝向相反的Alu重复序列容易形成双链结构。在RNA的编码区域和非编码区域均能检测到A-to-I RNA 编辑,所以RNA编辑可以影响mRNA的编码,也可以影响到mRNA的可变剪接或者稳定性的调控。近些年,RNA编辑在调控双链RNA的免疫原性上的功能也正在被越来越多关注和研究。

1 L-GIREMI算法示意图。

L-GIREMI算法主要有四个步骤(图1)。首先是检查长读长序列的方向是否正确,如果方向和基因的注释相反,则予以必要的矫正。之后是获取RNADNA有差异的候选位点,该步骤中会过滤掉一些明显有更高假阳性概率的位点,同时根据dbSNP的注释对候选位点做标注。接下来L-GIREMI采用了研究组之前开发的针对二代测序的分析算法GIREMI的策略,即根据候选位点和注释为SNP位点的互信息来判断最为可能是RNA 编辑位点的候选位点。最后,根据互信息选出来的位点的特征,用广义线性模型对所有候选位点打分(GLM score或者L-GIREMI score),得分较高的是最终选出来的RNA编辑位点(高于一定阈值的非SNP位点)。

2 阿尔茨海默氏病病人大脑样本的长读长RNA-seq数据分析出RNA编辑位点。(a) 在该数据中找到的所有DNARNA的差异位点。(b)推测的杂合SNP位点和非dbSNP位点的互信息分布。(cA-to-G比例和不同得分阈值的关系,虚线是最终选择的阈值(0.64)。(e)在不同的测序深度下(通过随机抽样来下采样),获得的RNA编辑位点。(f)不同测序深度下的A-to-G比例(和e对应)。

L-GIREMI可以有效的从阿尔茨海默氏病病人大脑样本的基于PacBio Sequel II平台的长读长RNA-seq数据中计算出RNA编辑位点(图2)。图2a中显示的是从原始数据中直接获取的所有DNARNA的差异位点,可以看到其中包含各种各样的差异类型。而经过L-GIREMI分析后得到的RNA编辑位点则主要是A-to-GA-to-I在测序数据中显示为A-to-G)位点,符合了人体细胞中的RNA编辑的情况(图2c)。为了了解测序深度对RNA编辑位点分析的影响,作者对长读长RNA-seq数据进行了下采样。L-GIREMI分析所得到的A-to-I RNA编辑位点的数量和比例均随着测序深度的增加而增加(图2e和图2f)。当测序深度增加后,L-GIREMI将能够更有效地区分RNA编辑位点和SNP、测序错误等非编辑位点。

3 长读长RNA-seq有助于双链RNA结构的搜寻。(aIGV图显示一个区域中许多序列有中部的缺失。该区域位于两段互补的Alu序列之间。(b)在长读长RNA-seq实验中,逆转录酶造成的测序区域缺失的原理图。(c)预测的双链RNA区域有和没有区域缺失部分的测序深度柱状图。(d)双链RNA序列区域缺失比例的直方图。(e)预测的双链RNA中的序列缺失区域的长度分布。

A-to-I RNA编辑位点往往出现在能够形成双链RNA结构的区域。在L-GIREMI分析结果中,可以看到很多聚集的RNA编辑位点中间出现序列缺失的现象(图3a)。经过分析,这样的区域周围一般都具有可以形成互补区域的Alu序列。作者推测这些序列缺失来自于测序样品制备环节中的反转录步骤。反转录酶会跳过双链RNA部分,从而使得测序数据中出现了缺失(图3b)。而在整个测序数据中,可以看到预测的双链RNA区域中有很高比例的位点都有序列缺失的部分(图3c和图3d)。同时,序列缺失的长度也基本上符合两条相邻互补Alu序列的长度(图3e)。相比于被打断的二代测序RNA-seq数据,长读长RNA-seq数据更有可能保留较多的序列缺失部分,为研究双链RNA结构提供了新的可能性。

当前已经有从长读长RNA-seq数据分析可变剪接的算法。L-GIREMI算法为长读长RNA-seq数据分析提供了可变剪接和表达量之外的新维度。将同一个样品的可变剪接信息和RNA编辑位点的信息关联起来可能能够提供有关于RNA剪接调控的新视角。作者也讨论到当前的三代测序数据的测序质量相比二代测序数据的测序质量要低,这也会影响到对于三代测序数据的准确分析。但随着测序技术和相关算法的发展,未来从一份长读长RNA-seq数据中精准地获取多个维度的信息将成可能。

Xinshu Xiao教授实验室介绍

加州大学洛杉矶分校Xinshu Xiao 课题组(https://xiaolab.ibp.ucla.edu/)主要关注RNA 生物学领域研究,研究方向涵盖癌症、神经发育和神经退行性疾病中的RNA 剪接、RNA 编辑、非编码RNA等功能和调控等。课题组开发了多种生物信息学方法和基因组学方法,密切结合分子生物学实验和高通量测序手段,来揭示更多转录组学和表观转录组学的规律。

转自:BMC科研永不止步”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com