Nature 子刊!从整张幻灯片图像预测肿瘤RNA-Seq表达的深度学习模型 Sci科研力 2022-05-16 10:53
2022/5/17 15:58:33 阅读:243 发布者:
肿瘤活检切片的组织学分析是肿瘤学中的重要工具,可提供高分辨率的肿瘤图谱,帮助病理学家确定诊断和分级。
背景介绍
卷积神经网络(CNN)最近已成为一种重要的图像分析工具,加速了病理学家的工作。 今天小编为大家带来的这篇文章,作者提出了一种深度学习模型HE2RNA,通过分析癌症中通过苏木精和伊红(H&E)染色的全视野数字切片(WSI),来量化特定基因的表达水平。文章发表在《nature communications》上,影响因子为14.919,文章题目为:A deep learning model to predict RNA-Seq expression of tumours from whole slide images。
数据介绍
TCGA泛癌数据集:本研究基于来自TCGA(https://portal.gdc.cancer.gov/) 的公开数据,获得了28 种不同癌症类型和 8725 名患者的苏木精和伊红 (H&E) 染色的组织学切片和 RNA-Seq 数据(FPKM-UQ 值)。
结果解析
01
用于预测基因表达的深度学习模型
本研究的工作流程如图1所示。首先,从TCGA中收集了WSI及其相应的RNAseq数据。然后,研究了如何使用HE2RNA生成热图,以便对任何基因表达进行空间可视化。最后,展示了通过该模型学习的转录组表达如何提高对特定分子表型(如微卫星不稳定性)的预测。
针对每种不同类型的癌症,分别对每个基因进行相关性评估。显著预测良好的基因的数量在癌症类型之间差异很大,这主要是由于考虑的数据集的大小(图2a):样本的数量越少,统计显著性所需的相关系数越高。比较了每一种癌症中预测良好的基因列表,以分析预测的一致性。在所有28种可用的癌症类型中,没有一个基因被很好地预测(图2b),但当考虑较小的癌症亚型时,很少有基因始终高于显著性阈值。
HE2RNA在较小的癌症类型亚群中始终能够很好地预测较长的基因列表,本研究使用ingenuity pathway analysis(IPA)软件来识别相应的生物网络。结果发现 156 个基因在 28 种不同癌症类型中的至少 12 种中分别被很好地预测。对于这个基因子集进行了功能注释(图2c),结果揭示了免疫和T细胞调节相关基因的富集。
02
HE2RNA能够显著预测通路的活性
在50%的肿瘤类型的血管生成和54%的缺氧、DNA修复和细胞周期通路中,HE2RNA比随机基因列表更好地预测特征,B细胞和T细胞介导免疫的比例分别达到75%和86%(图3a)。同样,当比较预测良好的基因比例时,HE2RNA预测在36%(血管生成)、29%(缺氧)、25%(DNA修复)、39%(细胞周期)、36%(B细胞介导的免疫)和50%(T细胞介导的免疫)癌症类型中明显优于随机基因集(图3b)。
03
用于虚拟空间化的工具
HE2RNA给所有有助于基因预测的超tile打分,为模型选择的超tile越多,空间化的定义就越高。已有研究证明可以在CNN模型的基础上定义一个覆盖整个WSI的虚拟空间化地图(virtual spatialization map, VSM)。这些热图反映了分配给算法中使用的每个图块的重要性分数。
本研究使用CD3受体的四个编码基因:CD3D、CD3E、CD3G和CD24738的预测(表1中的相关性和p值)来定义T细胞的空间定位。类似地,为了定义B细胞群,本研究考虑了仅由B淋巴细胞表达的CD19和CD20蛋白,并使用它们的预测(表1)来定义B细胞的空间定位(后来称为B细胞模型)。
04
免疫组化证实的CD3和CD20表达的虚拟空间化
本研究进一步验证了来自LIHC样本的单个外部H&E-CD3双染色载玻片上T细胞模型的空间化(图4a)。计算了H&E染色预测的每片T细胞的表达与使用 QuPath 软件在 CD3 染色载玻片上获得的实际 T 细胞数量之间的相关性,其中R= 0.51(图4b)。又分析了 100 个具有最高 CD3 基因表达预测值的tiles,这些tiles上T细胞的中位数为36个细胞,而幻灯片上所有28123tiles上T细胞的中位数为4个,证实了预测模型的准确空间可解释性(图4c)。将T细胞和B细胞模型应用到一张新幻灯片上,并确定了预测的基因表达和B细胞数量在tile水平上的一致性,T细胞模型的相关系数Rtile = 0.19,而B细胞模型的相关系数显著更高Rtile = 0.23(图 4c、d)。
05
上皮相关基因的虚拟空间化
除了与免疫相关的基因外,本研究考虑了前列腺腺癌中上皮细胞的特征基因。在TCGA-PRAD上训练了一个预测3个上皮相关基因(TP63、KRT8和KRT18)的模型,并将其应用于该数据集。本研究比较了这三个基因在单个tile水平上的平均预测表达和这些tile上的上皮细胞的比例,简单地定义为掩码的阳性像素的百分比。与淋巴细胞一样,发现HE2RNA预测与上皮细胞分数/比例之间存在显著相关性(R = 0.41)(图5a-c)。
06
HE2RNA用于微卫星不稳定状态预测
HE2RNA还提供了WSIs的转录组表征,对不同的临床情况具有潜在的应用价值。在对来自TCGA-COAD的MSI-H患者的分析中,显示在这个亚群中,HE2RNA显著地预测了大量的基因(1027 个基因在 HS 校正下预测良好)(图6a)。对MSI-H患者中预测良好的基因进行基因组富集分析,发现了在t细胞活化和免疫活化(PD-1信号,干扰素γ信号)中富集。这些结果证实了HE2RNA在预测免疫浸润方面的高效性,并与这些患者中观察到的已知较高的免疫浸润相一致,并与对免疫治疗的积极反应相关(图6b)。
小编总结
本研究提出了HE2RNA,这是一种深度学习模型,可以从组织学图像中推断出转录组谱,并能正确预测参与癌症类型特异性通路的基因表达。HE2RNA在预测RNA-Seq数据时学习到的内部转录组表示,可能是理解临床分类问题所需的生物学描述符以及包含在组织和分子水平的信息之间的联系的重要一步,可以构成医学迁移学习的范例。
转自:Sci科研力 2022-05-16 10:53
文章来源于作图丫 ,作者月野兔
如有侵权,请联系本站删除!