生信数据挖掘之数据来源

2022/7/19 14:11:32　阅读：599　发布者：

今天为大家带来生信数据挖掘系列的首次分享，宏观上数据挖掘一般分为数据的来源和采集、数据清洗和特征提取、分析处理和算法等几部分。我们作为医学僧可能更关注的是生物信息学在医学领域的数据挖掘，那怎么“挖”才能保证我们的数据更多更全面、研究内容更丰富？今天先通过几个数据库的介绍，开启我们的数据挖掘之行。

，时长33:10

目前医学相关的公共数据库中，以肿瘤数据最为丰富全面，具有较强的可挖掘性，在庞大的数据支撑下，极大地便利了肿瘤相关研究的开展，与此同时，在世界各地实验室的助力下，数据储量也是与日俱增，所以小编今天以肿瘤数据库为主展开分享。

Part.1

TCGA

TCGA (The Cancer Genome Atlas) : 癌症基因组图谱项目由美国国家癌症研究所(NCI)和美国人类基因组研究所(the National Human Genome Research Institute)开始于2006年，在过去十几年间，该数据库收录了33种癌症的20000多个样本的多种数据，包括了转录组表达数据、基因组变异数据、甲基化数据、临床数据等。作为目前最大的癌症基因数据库，庞大的样本量、多样化的数据类型以及规范的数据格式使得TCGA成为我们癌症研究中的首选。

那么，我们如何从如此强大的数据库中检索得到我们所需要的数据呢？

官网链接：https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

TCGA数据的下载和检索都是通过官方建立的门户网站GDC Data Portal下载，从上述链接进入官网后，点击简介下方的Access TCGA Data即可进入GDC Data Portal或者直接输入链接：https://portal.gdc.cancer.gov/ ；

GDC Data Portal首页是关于数据的汇总信息，点击Repository进入数据筛选的界面；

先在Case选项中做癌症类型及具体分型、数据来源的筛选，如果有需要还可对部分临床性状如性别和年龄进行限定；

①Case中筛选完成后点击File，从中筛选来选择我们所需要的具体类型，比如是转录组数据还是基因组变异数据等；②根据所需条件完成筛选后，将我们所需数据加入购物车Add All Files To Cart；③点击购物车的图标进入下载界面；

下载临床文件Clinical，用于数据清洗的文件Metadata，Download下的数据文件Cart；到这里TCGA数据就下载完成了，具体数据的清洗和处理方法会在之后的分享中详细讲解。

Part.2

GEO

GEO (Gene Expression Omnibus) : GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的数据库。创建于2000年，收录了世界各国研究机构提交的基因测序数据，也就是一些已发表文章中的数据会被上传到该数据库中，供大家开放获取。

官网链接：https://www.ncbi.nlm.nih.gov/geo/

输入上述链接进入首页，当我们需要收集某种癌症的数据时，在检索框内输入相应肿瘤名称进入检索结果列表；

可以根据需要设定筛选条件，①样本所属的物种；②数据类型，比如Expression profiling by high throughput sequencing就是指高通量测序获得的基因表达数据，Expression profiling by array就是指芯片获得的表达数据，这两种数据也是我们平时做数据挖掘用得最多的；③可以选择筛选数据集的样本数量的区间；完成条件设置后，点击筛选出的词条查看每一个数据集的详细信息，看是否符合需求；

也可以直接在首页搜索框输入GEO数据集对应的GSE编号；

数据集界面可以看到对该数据的详细描述；

下拉滚动条以后可以看到：①该数据集来源的文献，可以帮助我们更细致地了解该数据的相关信息，同时还能从这些文献的附件中收集到GEO数据库中未录入或录入不全的信息，比如临床信息等；②平台文件，以GPL命名，点击进入下载注释文件，图中示例数据是用Affmetrix公司的芯片所测得的数据，除此以外，常见的还有Illumina和Agilent公司；③GEO中的样本编号以GSM命名，点击每个编号可以查看每个样本的详细信息；④作为示例的GSE17536是GSE17238的一个子集；⑤点击Series Matrix File(s)进入可以下载整合后的表达矩阵和临床数据文件；⑥如果要按特定方式校正后的数据，可以下载RawData进行处理；一般将注释文件与Series Matrix文件下载后就可以进行数据清洗与处理。

Part.3

ICGC

ICGC(International Cancer Genome Consortium)

国际肿瘤基因组联合体所搭建的数据库，其中收集了50种不同癌症类型的肿瘤数据，包括基因表达，体细胞突变，表观遗传修饰，临床数据等，与TCGA数据有重合。

官网链接：https://dcc.icgc.org/

点击Cancer Projects进入筛选界面，或者在下方检索框直接检索所需要的癌症；

根据需要选择需要的肿瘤，并在Details中查看该肿瘤数据的统计信息；

这里汇总了每一个Project中所包含的数据类型，比如：SSM(体细胞突变数据)、METH(甲基化数据)、EXP(表达数据)，点击某Project中对应的数据类型下方的数字，即可进入该数据的下载界面；

点击Download Donor Data即可开始下载，从列表框中选中我们需要的数据类型下载。

Part.4

ArrayExpress

ArrayExpress和GEO数据库类似，也是用于存放芯片和高通量测序的相关数据，主要由两部分数据组成，一部分由科研工作者提交的数据，第二部分是从GEO数据库自动导入的数据，所以与GEO数据库有所重合。

官网链接：https://www.ebi.ac.uk/arrayexpress/

官网首页在检索框内搜索相应的癌症；

根据左上角筛选物种和数据类型，数据名称以E-GEOD开头的是来自于GEO数据库，E-MTAB开头的来源于研究人员上传，点击数据名称可以查看详细信息；

Click for detailed sample information and links to data可以查看详细的临床信息；

MIAME部分是对信息的汇总，标*表示存在该类型数据，如果是-即表示该类型数据缺失，Files下载对应文件进行数据清洗处理即可。

Part.5

UCSC Xena

UCSC Xena是一个对TCGA数据进行二次开发的衍生网站，支持数据分析功能以及可视化，除了TCGA，Xena还收集了GTEx、ICGC、TARGET等多个数据库的公共数据，数据的下载和处理简单易上手。

官网链接：https://xena.ucsc.edu/

在官网首页点击Launch Xena进入；

点击左上角的DATA SETS进入数据库；

左侧列表为129个队列的详细数据，右侧Active Data Hubs指数据的来源，比如点击GDC TCGA Breast Cancer (BRCA)就可以查看并下载GDC的乳腺癌数据；

UCSC将TCGA中的大部分数据都囊括了，比如有：①拷贝数变异数据；②甲基化数据；③转录组表达数据；④临床数据(Phenotype中存储完整的临床信息，survival data中只有生存数据)；⑤体细胞突变数据；

以转录组的表达数据下载为例，我们先选择一种数据格式，比如HTSeq - FPKM，进入后可以看到：①是整合好的表达数据文件，也就是下方表格的完整版；②是注释该表达数据基因名的文件，目前UCSC用的还是GENECODE v22版本，但其实最新版的TCGA已经更新到了v36版本(这一部分在前面的B站视频中有所提及)；点击这两个文件链接下载后，再下载临床数据就可以开始数据清洗啦。

Part.6

cBioPortal

cBioPortal由 Memorial Sloan Kettering Cancer Center (MSK)开发一个基因组数据库，其中突变数据比较多，除了TCGA的数据，MSK也上传了许多自己团队测序并发文的数据，该数据库对于做突变研究是一大利器。

官网链接：https://www.cbioportal.org/

进入官网首页，①选择合适的癌症类型；②选取该癌症的队列；③点击Explore Selected Studies进入数据统计分析界面；

①点击下载数据；②查看数据来源的文献；③查看数据统计以及临床信息；④可以在检索框内输入基因进行简单的数据探索和可视化。

结语

希望上述6个数据库的介绍可以对大家有所帮助，可能很多小伙伴之前已经有所了解，但这些数据库都会定期更新，比如TCGA在今年3月份就进行了一次较大的更新，有兴趣的小伙伴也可以再深入探索一下。

转自：科研人直通车

如有侵权，请联系本站删除！

上一篇： 临床试验数据管理有哪些重要文件？
下一篇： Houdini学习笔记004

投稿问答最小化 关闭

生信数据挖掘之数据来源

本文评论

暂无相应记录！

科研工具热门文章

本站推荐

最近更新

投稿问答最小化 关闭

生信数据挖掘之数据来源

本文评论

暂无相应记录！

科研工具热门文章

本站推荐

最近更新

投稿问答最小化关闭