今天为大家带来生信数据挖掘系列的首次分享,宏观上数据挖掘一般分为数据的来源和采集、数据清洗和特征提取、分析处理和算法等几部分。我们作为医学僧可能更关注的是生物信息学在医学领域的数据挖掘,那怎么“挖”才能保证我们的数据更多更全面、研究内容更丰富?今天先通过几个数据库的介绍,开启我们的数据挖掘之行。
,时长33:10
目前医学相关的公共数据库中,以肿瘤数据最为丰富全面,具有较强的可挖掘性,在庞大的数据支撑下,极大地便利了肿瘤相关研究的开展,与此同时,在世界各地实验室的助力下,数据储量也是与日俱增,所以小编今天以肿瘤数据库为主展开分享。
1
Part.1
TCGA
TCGA (The Cancer Genome Atlas) : 癌症基因组图谱项目由美国国家癌症研究所(NCI)和美国人类基因组研究所(the National Human Genome Research Institute)开始于2006年,在过去十几年间,该数据库收录了33种癌症的20000多个样本的多种数据,包括了转录组表达数据、基因组变异数据、甲基化数据、临床数据等。作为目前最大的癌症基因数据库,庞大的样本量、多样化的数据类型以及规范的数据格式使得TCGA成为我们癌症研究中的首选。
那么,我们如何从如此强大的数据库中检索得到我们所需要的数据呢?
官网链接:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
TCGA数据的下载和检索都是通过官方建立的门户网站GDC Data Portal下载,从上述链接进入官网后,点击简介下方的Access TCGA Data即可进入GDC Data Portal或者直接输入链接:https://portal.gdc.cancer.gov/ ;
GDC Data Portal首页是关于数据的汇总信息,点击Repository进入数据筛选的界面;
先在Case选项中做癌症类型及具体分型、数据来源的筛选,如果有需要还可对部分临床性状如性别和年龄进行限定;
①Case中筛选完成后点击File,从中筛选来选择我们所需要的具体类型,比如是转录组数据还是基因组变异数据等;②根据所需条件完成筛选后,将我们所需数据加入购物车Add All Files To Cart;③点击购物车的图标进入下载界面;
下载临床文件Clinical,用于数据清洗的文件Metadata,Download下的数据文件Cart;到这里TCGA数据就下载完成了,具体数据的清洗和处理方法会在之后的分享中详细讲解。
2
Part.2
GEO
GEO (Gene Expression Omnibus) : GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的数据库。创建于2000年,收录了世界各国研究机构提交的基因测序数据,也就是一些已发表文章中的数据会被上传到该数据库中,供大家开放获取。
官网链接:https://www.ncbi.nlm.nih.gov/geo/
输入上述链接进入首页,当我们需要收集某种癌症的数据时,在检索框内输入相应肿瘤名称进入检索结果列表;
可以根据需要设定筛选条件,①样本所属的物种;②数据类型,比如Expression profiling by high throughput sequencing就是指高通量测序获得的基因表达数据,Expression profiling by array就是指芯片获得的表达数据,这两种数据也是我们平时做数据挖掘用得最多的;③可以选择筛选数据集的样本数量的区间;完成条件设置后,点击筛选出的词条查看每一个数据集的详细信息,看是否符合需求;
也可以直接在首页搜索框输入GEO数据集对应的GSE编号;
数据集界面可以看到对该数据的详细描述;
下拉滚动条以后可以看到:①该数据集来源的文献,可以帮助我们更细致地了解该数据的相关信息,同时还能从这些文献的附件中收集到GEO数据库中未录入或录入不全的信息,比如临床信息等;②平台文件,以GPL命名,点击进入下载注释文件,图中示例数据是用Affmetrix公司的芯片所测得的数据,除此以外,常见的还有Illumina和Agilent公司;③GEO中的样本编号以GSM命名,点击每个编号可以查看每个样本的详细信息;④作为示例的GSE17536是GSE17238的一个子集;⑤点击Series Matrix File(s)进入可以下载整合后的表达矩阵和临床数据文件;⑥如果要按特定方式校正后的数据,可以下载RawData进行处理;一般将注释文件与Series Matrix文件下载后就可以进行数据清洗与处理。
3
Part.3
ICGC
ICGC(International Cancer Genome Consortium)
国际肿瘤基因组联合体所搭建的数据库,其中收集了50种不同癌症类型的肿瘤数据,包括基因表达,体细胞突变,表观遗传修饰,临床数据等,与TCGA数据有重合。
官网链接:https://dcc.icgc.org/
点击Cancer Projects进入筛选界面,或者在下方检索框直接检索所需要的癌症;
根据需要选择需要的肿瘤,并在Details中查看该肿瘤数据的统计信息;
这里汇总了每一个Project中所包含的数据类型,比如:SSM(体细胞突变数据)、METH(甲基化数据)、EXP(表达数据),点击某Project中对应的数据类型下方的数字,即可进入该数据的下载界面;
点击Download Donor Data即可开始下载,从列表框中选中我们需要的数据类型下载。
4
Part.4
ArrayExpress
ArrayExpress和GEO数据库类似,也是用于存放芯片和高通量测序的相关数据,主要由两部分数据组成,一部分由科研工作者提交的数据,第二部分是从GEO数据库自动导入的数据,所以与GEO数据库有所重合。
官网链接:https://www.ebi.ac.uk/arrayexpress/
官网首页在检索框内搜索相应的癌症;
根据左上角筛选物种和数据类型,数据名称以E-GEOD开头的是来自于GEO数据库,E-MTAB开头的来源于研究人员上传,点击数据名称可以查看详细信息;
Click for detailed sample information and links to data可以查看详细的临床信息;
MIAME部分是对信息的汇总,标*表示存在该类型数据,如果是-即表示该类型数据缺失,Files下载对应文件进行数据清洗处理即可。
5
Part.5
UCSC Xena
UCSC Xena是一个对TCGA数据进行二次开发的衍生网站,支持数据分析功能以及可视化,除了TCGA,Xena还收集了GTEx、ICGC、TARGET等多个数据库的公共数据,数据的下载和处理简单易上手。
官网链接:https://xena.ucsc.edu/
在官网首页点击Launch Xena进入;
点击左上角的DATA SETS进入数据库;
左侧列表为129个队列的详细数据,右侧Active Data Hubs指数据的来源,比如点击GDC TCGA Breast Cancer (BRCA)就可以查看并下载GDC的乳腺癌数据;
UCSC将TCGA中的大部分数据都囊括了,比如有:①拷贝数变异数据;②甲基化数据;③转录组表达数据;④临床数据(Phenotype中存储完整的临床信息,survival data中只有生存数据);⑤体细胞突变数据;
以转录组的表达数据下载为例,我们先选择一种数据格式,比如HTSeq - FPKM,进入后可以看到:①是整合好的表达数据文件,也就是下方表格的完整版;②是注释该表达数据基因名的文件,目前UCSC用的还是GENECODE v22版本,但其实最新版的TCGA已经更新到了v36版本(这一部分在前面的B站视频中有所提及);点击这两个文件链接下载后,再下载临床数据就可以开始数据清洗啦。
6
Part.6
cBioPortal
cBioPortal由 Memorial Sloan Kettering Cancer Center (MSK)开发一个基因组数据库,其中突变数据比较多,除了TCGA的数据,MSK也上传了许多自己团队测序并发文的数据,该数据库对于做突变研究是一大利器。
官网链接:https://www.cbioportal.org/
进入官网首页,①选择合适的癌症类型;②选取该癌症的队列;③点击Explore Selected Studies进入数据统计分析界面;
①点击下载数据;②查看数据来源的文献;③查看数据统计以及临床信息;④可以在检索框内输入基因进行简单的数据探索和可视化。
结语
希望上述6个数据库的介绍可以对大家有所帮助,可能很多小伙伴之前已经有所了解,但这些数据库都会定期更新,比如TCGA在今年3月份就进行了一次较大的更新,有兴趣的小伙伴也可以再深入探索一下。
转自:科研人直通车
如有侵权,请联系本站删除!