投稿问答最小化  关闭

万维书刊APP下载

生信数据挖掘之数据来源

2022/7/19 14:11:32  阅读:313 发布者:

今天为大家带来生信数据挖掘系列的首次分享,宏观上数据挖掘一般分为数据的来源和采集、数据清洗和特征提取、分析处理和算法等几部分。我们作为医学僧可能更关注的是生物信息学在医学领域的数据挖掘,那怎么“挖”才能保证我们的数据更多更全面、研究内容更丰富?今天先通过几个数据库的介绍,开启我们的数据挖掘之行。

,时长33:10

    目前医学相关的公共数据库中,以肿瘤数据最为丰富全面,具有较强的可挖掘性,在庞大的数据支撑下,极大地便利了肿瘤相关研究的开展,与此同时,在世界各地实验室的助力下,数据储量也是与日俱增,所以小编今天以肿瘤数据库为主展开分享。

1

Part.1

TCGA

TCGA (The Cancer Genome Atlas) : 癌症基因组图谱项目由美国国家癌症研究所(NCI)和美国人类基因组研究所(the National Human Genome Research Institute)开始于2006年,在过去十几年间,该数据库收录了33种癌症的20000多个样本的多种数据,包括了转录组表达数据、基因组变异数据、甲基化数据、临床数据等。作为目前最大的癌症基因数据库,庞大的样本量、多样化的数据类型以及规范的数据格式使得TCGA成为我们癌症研究中的首选。

    那么,我们如何从如此强大的数据库中检索得到我们所需要的数据呢?

官网链接:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga 

TCGA数据的下载和检索都是通过官方建立的门户网站GDC Data Portal下载,从上述链接进入官网后,点击简介下方的Access TCGA Data即可进入GDC Data Portal或者直接输入链接:https://portal.gdc.cancer.gov/ 

GDC Data Portal首页是关于数据的汇总信息,点击Repository进入数据筛选的界面;

先在Case选项中做癌症类型及具体分型、数据来源的筛选,如果有需要还可对部分临床性状如性别和年龄进行限定;

Case中筛选完成后点击File,从中筛选来选择我们所需要的具体类型,比如是转录组数据还是基因组变异数据等;②根据所需条件完成筛选后,将我们所需数据加入购物车Add All Files To Cart;③点击购物车的图标进入下载界面;

下载临床文件Clinical,用于数据清洗的文件MetadataDownload下的数据文件Cart;到这里TCGA数据就下载完成了,具体数据的清洗和处理方法会在之后的分享中详细讲解。

2

Part.2

GEO

GEO (Gene Expression Omnibus) : GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的数据库。创建于2000年,收录了世界各国研究机构提交的基因测序数据,也就是一些已发表文章中的数据会被上传到该数据库中,供大家开放获取。

官网链接:https://www.ncbi.nlm.nih.gov/geo/ 

输入上述链接进入首页,当我们需要收集某种癌症的数据时,在检索框内输入相应肿瘤名称进入检索结果列表;

可以根据需要设定筛选条件,①样本所属的物种;②数据类型,比如Expression profiling by high throughput sequencing就是指高通量测序获得的基因表达数据,Expression profiling by array就是指芯片获得的表达数据,这两种数据也是我们平时做数据挖掘用得最多的;③可以选择筛选数据集的样本数量的区间;完成条件设置后,点击筛选出的词条查看每一个数据集的详细信息,看是否符合需求;

也可以直接在首页搜索框输入GEO数据集对应的GSE编号;

数据集界面可以看到对该数据的详细描述;

下拉滚动条以后可以看到:①该数据集来源的文献,可以帮助我们更细致地了解该数据的相关信息,同时还能从这些文献的附件中收集到GEO数据库中未录入或录入不全的信息,比如临床信息等;②平台文件,以GPL命名,点击进入下载注释文件,图中示例数据是用Affmetrix公司的芯片所测得的数据,除此以外,常见的还有IlluminaAgilent公司;③GEO中的样本编号以GSM命名,点击每个编号可以查看每个样本的详细信息;④作为示例的GSE17536GSE17238的一个子集;⑤点击Series Matrix File(s)进入可以下载整合后的表达矩阵和临床数据文件;⑥如果要按特定方式校正后的数据,可以下载RawData进行处理;一般将注释文件与Series Matrix文件下载后就可以进行数据清洗与处理。

3

Part.3

ICGC

ICGC(International Cancer Genome Consortium)

国际肿瘤基因组联合体所搭建的数据库,其中收集了50种不同癌症类型的肿瘤数据,包括基因表达,体细胞突变,表观遗传修饰,临床数据等,与TCGA数据有重合。

官网链接:https://dcc.icgc.org/ 

点击Cancer Projects进入筛选界面,或者在下方检索框直接检索所需要的癌症;

根据需要选择需要的肿瘤,并在Details中查看该肿瘤数据的统计信息;

这里汇总了每一个Project中所包含的数据类型,比如:SSM(体细胞突变数据)METH(甲基化数据)EXP(表达数据),点击某Project中对应的数据类型下方的数字,即可进入该数据的下载界面;

点击Download Donor Data即可开始下载,从列表框中选中我们需要的数据类型下载。

4

Part.4

ArrayExpress

ArrayExpressGEO数据库类似,也是用于存放芯片和高通量测序的相关数据,主要由两部分数据组成,一部分由科研工作者提交的数据,第二部分是从GEO数据库自动导入的数据,所以与GEO数据库有所重合。

官网链接:https://www.ebi.ac.uk/arrayexpress/ 

官网首页在检索框内搜索相应的癌症;

根据左上角筛选物种和数据类型,数据名称以E-GEOD开头的是来自于GEO数据库,E-MTAB开头的来源于研究人员上传,点击数据名称可以查看详细信息;

Click for detailed sample information and links to data可以查看详细的临床信息;

MIAME部分是对信息的汇总,标*表示存在该类型数据,如果是-即表示该类型数据缺失,Files下载对应文件进行数据清洗处理即可。

5

Part.5

UCSC Xena

UCSC Xena是一个对TCGA数据进行二次开发的衍生网站,支持数据分析功能以及可视化,除了TCGAXena还收集了GTExICGCTARGET等多个数据库的公共数据,数据的下载和处理简单易上手。

官网链接:https://xena.ucsc.edu/ 

在官网首页点击Launch Xena进入;

点击左上角的DATA SETS进入数据库;

左侧列表为129个队列的详细数据,右侧Active Data Hubs指数据的来源,比如点击GDC TCGA Breast Cancer (BRCA)就可以查看并下载GDC的乳腺癌数据;

UCSCTCGA中的大部分数据都囊括了,比如有:①拷贝数变异数据;②甲基化数据;③转录组表达数据;④临床数据(Phenotype中存储完整的临床信息,survival data中只有生存数据);⑤体细胞突变数据;

以转录组的表达数据下载为例,我们先选择一种数据格式,比如HTSeq - FPKM,进入后可以看到:①是整合好的表达数据文件,也就是下方表格的完整版;②是注释该表达数据基因名的文件,目前UCSC用的还是GENECODE v22版本,但其实最新版的TCGA已经更新到了v36版本(这一部分在前面的B站视频中有所提及);点击这两个文件链接下载后,再下载临床数据就可以开始数据清洗啦。

6

Part.6

cBioPortal

cBioPortalMemorial Sloan Kettering Cancer Center (MSK)开发一个基因组数据库,其中突变数据比较多,除了TCGA的数据,MSK也上传了许多自己团队测序并发文的数据,该数据库对于做突变研究是一大利器。

官网链接:https://www.cbioportal.org/

进入官网首页,①选择合适的癌症类型;②选取该癌症的队列;③点击Explore Selected Studies进入数据统计分析界面;

①点击下载数据;②查看数据来源的文献;③查看数据统计以及临床信息;④可以在检索框内输入基因进行简单的数据探索和可视化。

结语

希望上述6个数据库的介绍可以对大家有所帮助,可能很多小伙伴之前已经有所了解,但这些数据库都会定期更新,比如TCGA在今年3月份就进行了一次较大的更新,有兴趣的小伙伴也可以再深入探索一下。

转自:科研人直通车

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com