空间转录组数据分析策略之定性分析
2022/6/24 8:57:34 阅读:319 发布者:
空间转录组测序是通过原位RNA捕获的方式将组织学和转录组学进行结合,以实现对基因表达丰度和表达位置的测量。空间转录组的这种实验建库方式带给空间转录组数据两个重要性质——空间和高通量,这也使得空间图谱更像是一张地图,也方便我们更好地理解基因表达、细胞类型和样本表型之间的关联关系。所以,我们进行数据分析的目的也就是弄明白,是什么细胞在什么位置表达了什么基因引起了表型特征的变化;对应于数据分析需求,也就是定性、定量和定位三个方面的分析内容。想起一个很有意思的题目:一只熊从4.916米的高处落下来,耗时1秒,提问这只熊是什么颜色。看似无厘头的一个问题却也和空间转录组分析有共通之处,都是将看似无关的信息关联起来形成对表型的解释,包含了定性、定量和定位三方面的信息。定性决定了有什么,或者说分析时需要考量什么,正如这道题中的需要考量的熊和地球,也如空间转录组分析中的spot和基因,是承载结果的主体;定量决定了分析主体的量化结果和差异特征,正如这道题中熊的下落高度和时间,也如空间转录组分析中的基因表达量和差异分析,是分析结果的主要途径;定位决定了分析主体的相对/绝对位置关系,正如这道题中熊在地球中的生活位置,也如空间转录组分析中spot、细胞和基因的分布特征,是机制解析的重要依据。正是结合以上三方面的数据特征,我们可以计算出熊的重力加速度(定性和定量),通过重力加速度得知熊分布在地球极地(定位),确定熊是北极熊,颜色为白色(样本表型)。空间转录组的数据分析看起来也像是这么一道题:已知基因的表达量,提问样本表型如何发生。而我们又能在定性、定量和定位三个方面中产生什么分析内容呢?定性分析的主要目标是为了研究有什么。在空间转录组中,作为分析主体的分别是spot和基因,所以,定性分析也主要是围绕这两个主体进行。
基因的定性分析,即样本表达了哪些基因。基因的定性主要通过reads比对得到,而reads比对冷冻包埋方案(FF方案)和石蜡包埋方案(FFPE方案)又有所不一样。我们可以从文库结构来看两者的不同。两者的共同点是都通过read2端来确定reads属于哪一个基因。不同之处则在于使用的参考序列有所不同。FF方案的文库构建自cDNA序列,所以read2端的序列是和基因组序列对应的,在比对时,会对read2序列的比对质量、多重比对进行过滤,以获得高质量的比对结果,通过reads和基因的比对情况确定样本表达了哪些基因。在细胞内,存在着非编码RNA也具有polyA结构,是可以被芯片捕获的,从而使得FF方案具备向蛋白编码基因以外的基因扩展的可能性。相对的,FFPE方案的文库构建自链接探针,所以read2端的序列是和探针数据库匹配的,在比对时,需先将reads比对到数据库,在通过探针与基因的对应关系确定样本表达了哪些基因。
(1)Q30 Bases in RNA Read。这一指标指征了read2端RNA插入片段的测序质量,主要受到序列结构的影响,一般都可以达到90%以上。在测序中,连续相同序列的出现会降低测序质量值的评估,进而降低这一参数的数值。而空间转录组中会引起这一现象的主要是polyA序列,read2端会出现polyA序列主要有两种情况,一是FF方案中RNA发生降解,文库插入片段偏短,属于异常情况;二是FFPE方案的探针本身偏短,read2端必然测到polyA,属于正常情况。(2)Reads Mapped Confidently to Genome。这一指标指征了read2的基因比对情况和基因组选择的正确性,受到参考基因组组装完整性和基因组结构的影响,模式生物通常可达到90%以上,非模式生物则根据基因组组装程度而不同,部分生物的基因组序列包含大量重复序列,如疟原虫,也会出现这一参数偏低的情况。(3)Median UMI Counts per Spot。这一指标指征了spot中的mRNA捕获情况,受到组织透化实验和组织特性的影响。当这一参数的数值偏低(小于1000)时,需要综合考虑两个影响因素。
其次是spot的定性分析,即样本包含了哪些spot。为了简化spot信息,我们首先可以对spot进行聚类分析,将数量庞大的spot简化为十多个spot亚群。由于组织相同区域的表达谱具有一定的相似性,所以属于同一个组织区域的spots更容易被聚类为同一个亚群;spots聚类的这一个特性在2019年由Cantin Ortiz等在小鼠大脑图谱构建过程中获得阐述,以分子特征聚类的spots亚群与解剖学组织区域划分具有较高的重合度。随后,我们就可以在spot亚群的基础上,将spot亚群鉴定为有生物学意义的标识,例如组织区域,例如细胞类型。所以,我们在亚群鉴定上也存在两个策略,解剖学注释和标记基因注释。解剖学注释是将切片的HE染色结果与spot位置进行比对,以切片的解剖学结构来注释spot亚群。这种方式需要对HE切片有一定的组织学认知,得到的注释结果与解剖学吻合度更高,可以将一些离散分布的spot进行规整和整合,得到更准确的spot注释信息。这种方式的好处就是将spot与病理学实现更好的匹配,进而与表型信息形成更好的关联。例如,在研究阿尔兹海默症时,我们可以根据β淀粉样沉淀的分布情况确定病变区域相关的spot,在后续的差异分析中,可以进一步探索病变相关的功能基因,这也是将spot与表型关联的好处。当然,这种方式也存在一定的局限性:一方面是工作量大,几乎只能单张切片进行,不过这可以通过聚类亚群来进行改善,即先定义亚群覆盖范围,再细改spot分布的方式简化这个注释过程;另一方面是适用情境较小,只能针对单张切片内组织结构清晰的切片,例如小鼠脑、人肝等,而对于缺乏精细解剖结构的组织,例如成年人心脏、小鼠骨骼肌等,解剖学认知达不到芯片6.5*6.5mm2的覆盖范围(如成年人心房在6.5*6.5mm2内只可鉴定为心房,无法继续细分),就不适合采用这种注释方法了。所以,作为延伸,我们就可以采取标记基因注释的方式作为补充。和单细胞转录组的细胞类型注释方法类似,通过标记基因在不同细胞亚群的分布情况来确定spot亚群的生物学意义,而这个生物学意义则与标记基因对应。如果使用细胞类型对应的标记基因,得到的注释结果对应spot亚群主要的细胞类型;如果使用组织区域对应的标记基因,得到的注释结果对应spot的分布区域。当然,现下空间图谱的数据库还是比较匮乏的,我们可以大量使用的还是细胞类型的标记基因,故而得到的还是以spot主要细胞类型为主。如图5所示,文章对心脏的注释就是以多种细胞类型来实现的。当然,伴随着空间图谱构建得逐步完善,针对组织分区的划分也会更近一步细化,由当初形态学为主的区域划分方法向分子特征为主的子区域划分进行细化,从而获得更丰富和细致的标记基因。以上就是关于定性分析的内容了。相对而言,定性分析可以说是空间转录组分析的基础,看着常规的内容往往也代表着不可替代的地位。也正是在定性分析的基础上,我们可以在后续展开关于定量和定位的相关分析内容,这些内容我们也将在后续的微信中逐步展开,不妨期待一下~
如有侵权,请联系本站删除!