分析空间转录组测序数据前不如看看这个先
2022/6/24 9:06:19 阅读:585 发布者:
空间转录组学技术可以在保留组织空间位置的同时,获得基因表达特征、表观调控等组学信息,在传统测序技术的基础上增加了空间信息维度,使得研究者可以从更精细的角度分析生物信息。往期我们介绍了实验过程中以及样本选择处理方面的空间转录组答疑。这一期将围绕在空间转录组测序数据分析时遇到的常见困惑给大家分享一下小小见解。批次效应主要指的是来自于实验处理干预因素以外的原因所产生的对实验数据的影响。例如操作人员、试剂批次等带来的实验细节上的差异,这些差异经由本身的累积和高通量测序的精度放大,就会产生批次效应,对实验结果成产生超出实验处理效应外的“噪音”,对分析产生干扰。但需要格外注意的是,不要将实验处理效应、空间异质性与批次效应混淆。空间转录组由于不同样本间本身存在的个体差异性以及同一组织不同区域之间存在的组织异质性,得到的数据存在差异是正常现象,并不属于真正的批次效应。那如何去规避真实批次效应的产生,又或者说如何去减轻已产生的批次效应呢?批次效应最好是在实验层面就降到最低。在空间转录组测序中,使用不同的包埋方法会带来较强的批次效应。如包埋方法不同,石蜡包埋与冷冻包埋得到的数据间的批次效应就会很强;又如包埋实验条件差异,即便是相同组织相同位置的切片,包埋过程中每个步骤所用的时间长短、冷冻温度若是存在差异也会造成批次效应的产生。因此,在实验设计时,尽可能地使用相同的组织区域,相同的包埋方法,统一实验过程中的操作手法、时间等可以很大程度上规避批次效应的产生。
图2 相同组织通过新鲜冷冻包埋和石蜡包埋的空间转录组数据降维图如若已经产生了批次效应,那也可以通过生物信息学对数据进行矫正,在空间转录组测序中主要有两种常见的矫正批次效应的方法,一种是CCA+MNN法,另一种是harmony法。两者都是基于R语言环境下的矫正方法,主要区别是对于校正因子的算法有所不同。明确样本是相同的组织区域,且存在实验包埋方法不同等造成的较强批次效应的数据时,比较适合选择用CCA+MNN法进行矫正;样本间存在个体差异或组织异质性(伪批次效应)且其他造成真实批次效应影响较弱的时候则可以选择用harmony法。筛选有效的spot进行后续是保证分析结果有效性的重要基础。在判定有效spot时,主要可以参考两个依据。空间转录组测序数据主要是基于切片组织透化后的RNA序列捕获,所以得到的spot点与H&E染色切片的组织位置理论上是一一对应的。在选择有效spot进行数据分析时,可以参考对应的切片位置进行判断。此外,也可以根据spot的基因检测量UMI的数值以及检测到的基因数量去判断位于组织边缘的spot是否是有效spot。如果某个spot位于切片组织的边缘地带,且UMI表达量或是检测基因数量与周围的spot相当,则该点可以判断为有效spot进行分析。
对spot数据进行聚类分群是为了将spot根据不同组织类型区分开,以便对不同组织区域spot进行生物学功能差异的分析。与单细胞转录组相类似,我们通过修改聚类分群的分辨率阈值,可以得到不同数量的spot亚群。分辨率越高得到的spot亚群数越多。所选择的分辨率阈值是否合适是根据spot注释结果来判定的:结合解剖学与H&E染色切片位置进行比对,是否自己分析所需的不同组织都分成了不同的spot亚群。整体看下来,虽然得到的spot亚群数有所不同,但三种不同分辨率下的分群结果相差不大。如果我们想得到皮质(左上紫色箭头指向区域)的注释分群信息,那0.5分辨率下的亚群5、6、7就已足够得到很好的分群注释结果,0.8及1.0的分辨率下亦然。而海马回(左上绿色箭头指向深红色区域)在三种分辨率下的分群结果就稍显不足了,未能将海马回组织所对应的spot分成不同的spot亚群,可以尝试将分辨率调大再次进行聚类。
上面三个问题主要关于的空间转录组单组学的问题,那关于空间转录组结合单细胞转录组的多组学应用,不妨也回答一下~
单细胞转录组将每个转录本与单个细胞相关联,但关于这些转录本在组织中的位置信息是丢失的;而空间转录组技术虽然知道转录本的位置,却不知道是哪种细胞的转录本。因此通过将两者数据结合,我们可以获得空间层面的细胞分布及转录本信息。由于单细胞转录组数据来源于整个样本,而空间转录的切片仅来源于样本的10μm厚度的切片,所以空间转录组的切片并不一定包含单细胞转录组中所有细胞的数据信息。空间转录组的数据与单细胞转录组数据相比①细胞覆盖度不高,②细胞组成差异较大。因此,在相关性计算结果中经常会出现同一个样本来源的两组学数据相关性偏低(如下图R=0.2)的情况。
但前面也解释过,两者数据相关性低,是由于是两个不同层面的转录组数据,并不会影响spot细胞注释。现如今已发表的文献中,不乏通过单细胞转录组测序得到的细胞类型及特征基因表达去对空间转录组spot进行注释。在这点上,老师们可以放心。
在空间转录组测序中一个spot可能会检测到1~50个细胞,了解每个spot的细胞组成,可以提高空间转录组数据的分辨率,解析不同细胞类型在切片上的分布特征。通过spot对应的H&E染色组织切片的位置结合解剖学,我们可以初步了解到该spot属于什么组织,再通过结合单细胞转录组数据进行更详尽的细胞类型注释。为了突破空间转录组技术的局限性(非单细胞级别分辨率以及检测通量有限),生物信息学家设计了多种算法整合空间转录组与单细胞转录组数据,以此预测不同细胞类型的空间分布。①通过细胞特征基因表达情况去判断是否有该细胞类型表达,这个和单细胞转录组细胞注释是差不多的原理。②通过将推测可能含有的细胞类型的特征表达基因作为特定基因集,去计算在每个spot中若干个细胞特征基因集的score值,并会根据整体数据得到相应的阈值,用于判断在什么score阈值内的细胞基因集鉴定为spot含有该类细胞。③将单细胞的细胞标签映射到空间切片的spot上,判断每个spot最可能的细胞类型。得到组织区域spot细胞类型信息,从而推断出细胞在组织的空间分布情况,了解不同细胞在组织spot上的共定位。通过对spot所含细胞类型的定性以及共定位还可以获得细胞互作、分泌蛋白以及下游基因等细胞通讯相关的信息。
如有侵权,请联系本站删除!