今天要学习的cBioPortal(http://www.cbioportal.org/)是一个功能更加强大的公共组学资源探索数据库,关于此数据库的首篇文献发表于2012,第二篇发表于2013,两篇文献的引用目前累积超2w,组学数据资源和功能一直在更新之中。
我们可以使用cBioPortal:1. 对数据库内的所有癌症基因组学数据和临床数据进行访问和下载,支持选择性(自定义筛选)的数据下载;2. 多维癌症基因组学数据的探索。整合了包括体细胞突变(Mutations)、DNA拷贝数改变(CNAs)、mRNA和miRNA表达量、DNA甲基化、蛋白质丰度、临床信息等数据类型,能够跨基因、样本、患者、数据类型进行可视化和分析,如比较不同癌症中的基因改变频率、对单个癌症中基因组改变情况进行总结、探索单个或多个目标基因的pathway、进行生存分析、驱动基因的协同与互斥分析等等。
一、页面介绍
进入cBioPortal首页,如下可分为三个区域。左侧区域根据不同癌症组织部位进行了划分,数字代表收录的数据集数量。中间区域罗列了整合的所有癌症数据集(括号内为数据来源),数据集末端的三个图标分别为显示测序类型、PubMed对应链接、查看临床和基因组数据详情。右侧区域提供了一些使用详例,帮助更好的使用cBioPortal。
首先确定癌症类型。可通过左侧区域选定组织部位→在中侧区域选中想探究渠道的癌症数据集。除此之外,也可以直接通过右上角Search处检索。如果想要同时探索多种癌症,可以同时选中多个。
如下我们想探究GBM(胶质母细胞瘤),可以通过选择CNS/Brain,找到对应癌症,同一种癌症可能收录了多个渠道的研究数据,大家根据自己的需要进行选择。这里我们以来自TCGA的PanCancer 数据为例,选中数据集后,我们先点击Explore Selected Studies(或者数据集末端第三个图标)进行数据集的初步探索。
二、数据初步探索
在Summary中,以模块的形式可视化了该研究(数据集)中的各类型数据。比如第一个模块(Genomic Profile Sample Counts),展示了基因组图谱中不同类型数据的样本数量;在右侧通过多个模块以KM生存曲线展示不同生存期患者的生存情况;下方还展示了突变基因及结构变异基因及突变频率信息。
继续下拉,能够看到更多模块,如拷贝数变异基因及频率、不同临床信息(治疗用药方案、诊断年龄、性别、种族、MSI评分、肿瘤亚型等等)。
所有的模块,我们都可以任意拖动和改变位置,与自己研究无关的模块直接叉掉即可不显示。此外,上述默认显示的模块只是一小部分,我们可以通过右上方图表(Charts)处勾选需要可视化的数据,根据选项自行选择即可。我们还可以根据各类模块信息勾选关注的数据或基因,会过滤掉与关注点无关的样本,点击下载图标即可将过滤后的样本数据下载到本地。
初步探索完数据概况,下面可以探究自己关注的基因了!回到首页,选择Query By Gene。
三、多维组学数据挖掘
第一列为我们所选定的研究对象(数据集合),即来自TCGA Pan Cancer的GBM相关数据,点击Modify可进行修改。接着选择基因组图谱数据类型、数据集,最后选择或者输入一个或多个目标基因。这里我们输入三个基因:TP53、MDM2、MDM4,其它选项保持默认。
下面就可以从多维度对选定的数据和基因进行交互式探索与可视化。
1. OncoPrint
OncoPrint版块通过瀑布图展示目标基因在选定癌症数据集(378个样本)的基因组改变情况。每行代表一个基因,每列为一个样本,条码中不同颜色表示出现的不同的基因组改变情况(包括体细胞突变、拷贝数变异等),可以看到三个目标基因共计在188个样本(50%)中发生了不同程度的基因组改变。
想要比较更多信息?点击Add Tracks可添加不同类别中感兴趣的数据信息。如我们继续额外选择一些关注的临床信息(突变谱、肿瘤类型、性别、生死情况)和mRNA表达量热图添加到瀑布图中。
呈现形式如下。可以将同一样本/患者下选中的不同信息进行纵向比较,一些位置缺少数据是因为并不是所有病人都同时进行了所有组学测序。
在放大镜处可以对瀑布图进行缩放,在Download处可下载图表或表格。
2. Cancer Types Summary
在这里主要起一个信息汇总的功能,由于我们只选择了一类癌症的一个研究渠道数据,因此只显示一个堆叠柱形图。将鼠标放到柱子上,会实时显示在该癌症基因组中三个目标基因发生了改变的突变类型及频率,可以切换单个基因进行展示。当我们进行复杂研究,如同时探究多个类型癌症,或者同一个癌症的多个不同研究的数据时,可以根据研究、癌症类型或是详细分类进行堆叠柱形图的汇总展示。
3. Mutual Exclusivity
肿瘤驱动基因的协同与互斥模式探究也有着重大的研究意义。根据协同和互斥模式将突变分类两类:Co-occurrence与Mutual exclusivity。在此版块我们能够直接获得目标基因两两间的互斥性分析计算结果,如下。
4. Plots
在plots版块可以进行多维数据探索,即自行选定X轴和Y轴的数据,根据选定数据绘制对应图表。在Examples处提供一些常见分析点可以快速切换,如探究mRNA与体细胞突变类型、mRNA与甲基化、mRNA与拷贝数变异(如下图,以箱线图形式展现)等。更个性化的探索需要在左侧X与Y轴处自行选择。
又如探究TP53的mRNA表达量与tumor和normal样本间的表达差异;如果不想展示基因组改变信息,可以在右上角取消勾选对应选项。
5. Mutations
在突变版块能够显示目标基因的Pfam蛋白结构域中和特定的突变位点。下方表格展现目标基因的所有突变附加信息。点击View 3D Structure可查看突变位点在3D结构中的位置。
6. Co-expression
共表达分析模块,对目标基因进行相关性分析,可以选择mRNA或者蛋白进行探究,结果以表格和相关性散点形式同时呈现,表格中绿色代表正相关,红色代表负相关。
7. Comparison/Survival
在这个版块可以结合临床信息和多维组学数据,根据目标基因或有无基因组改变将样本进行分组比较并根据功能不同进行不同的分析。
在Survival中,可根据有无突变或目标基因进行分组,绘制KM生存曲线及对不同分组进行logrank差异检验。
在Clinical中可以对选择分组的基因组改变分数与选中的临床信息进行差异检验。
在Genomic Alterations中以火山图和分组柱形图形式展示在不同分组中发生高频改变的基因,将鼠标放置在火山图对应散点或是柱形图上会显示对应基因信息。
基于mRNA、Protein、Methylation、Microbiome Signature数据的分组比较同样会以火山图形式展现,这里我们不再赘述。
8. CN Segments
可以查看和下载对应的拷贝数片段信息。
9. Pathways
在pathways中可以根据目标基因找到匹配的癌症相关通路,并绘制通路图(支持自行拖拽调整)。
还可以点击Perform layout进行布局整体调整。
除了PathwayMapper,还可以选择来源于NDEx的pathway信息,可按照Similarity、p-Value或Overlap进行排序。
10. Download
在Download中会显示该研究下该癌症所有类型可用数据,我们都可以按需下载,结合其它工具或编程完成更个性化分析。
cBioPortal功能非常强大,更多内容大家在实操中可以逐步探索。好啦,今天的分享就到这里!
转自:基迪奥生物
如有侵权,请联系本站删除!