2022/3/25 16:51:02 阅读:1082 发布者:chichi77
在肿瘤研究中,Oncomine是非常重要的样本数据库,它整合了GEO、TCGA和已发表的文献来源的RNA和DNA-seq数据,是目前世界上最大的癌基因芯片数据库和整合数据挖掘平台,且自带分析和统计功能,旨在挖掘癌症基因信息。
然而有个非常不幸的消息——“高开低走”的Oncomine数据平台已于2022年1月17日终止服务。正所谓长江后浪推前浪,虽然Oncomine悄然离场,但是更多的数据平台正雨后春笋般的出现。今天小编含泪给大家总结了常用医学公共数据库,含临床数据库、生信数据库。
临床数据库
1.NCDB
美国国家癌症数据库(National Cancer Database, NCDB)是经国家认证的,由美国外科医师学会和美国癌症学会联合组建的,它是一个基于医院登记数据的临床肿瘤学数据库,来源于超过1500多个癌症委员会认证的机构。NCDB数据库可用于分析和跟踪恶性肿瘤患者的治疗过程和结局。数据库代表了全美超过70%的新诊断癌症病例和超过三千四百万个历史记录。
网址:https://www.facs.org/quality-programs/cancer/ncdb
2.TCGA
TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的项目, 收录了33种癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。
网址:https://cancergenome.nih.gov/
在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理,以下是其中整理最为完整和可靠的:
GDAC: http://gdac.broadinstitute.org/
Cancer Browser: https://genome-cancer.ucsc.edu/
cBioportal: http://www.cbioportal.org/index.do,适合对突变数据整体评估,单基因突变预后分析,主要是肿瘤的组学分析,而且数据可以下载进行再次分析。
3.SEER
SEER(Surveillance, Epidemiology, and EndResults Program)是由美国国立癌症研究所于 1973 年建立,是美国癌症统计的权威来源。里面包括各式各样的肿瘤类型,如肺癌、乳腺癌、胃癌、结直肠癌、前列腺癌等。主要提供了各式各样的临床资料,如性别、年龄、TNM 分期等,收集过临床数据的小伙伴都懂得收集数据是一件多么费时且痛苦的事。
近年来,癌症研究的生物信息学分析的重点从关键基因的挖掘逐渐转移到预后模型的构建。常见的分析数据来源于TCGA数据库,可结合mRNA表达谱和临床病理数据构建预后模型来预测患者的风险。如果我们想要关注特定人群(例如特定年龄,规定的诊断时间,特定性别等)的生存率时,TCGA就没有那么方便了。此时,SEER数据库就派上用场了,它详细的记录了癌症患者的临床特征,并且可以自定义选择研究时关心的指标。
网址:https://seer.cancer.gov/
4.METABRIC
国际乳腺癌协会的分子分类数据库(Molecular Taxonomy of Breast Cancer International Consortium, METABRIC) 是一个加拿大-英国联合项目,旨在根据有助于确定最佳治疗过程的分子特征将乳腺肿瘤进一步分类。METABRIC研究是一项涉及2000名乳腺癌患者的大型研究,根据肿瘤的基因将乳腺癌能够划分为10种亚型。METABRIC研究是一项大型的分子分析研究,包括基因表达、拷贝数、基因突变和临床数据。
网址:https://ega-archive.org/dacs/EGAC00001000484
5.GEO
基因表达库(Gene Expression Omnibus,GEO) 是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。作为一个提供免费高通量测序数据的数据库,在科研圈中无人不知,无人不晓。每年利用这些公共数据发的文章不计其数。它收录了世界各国研究机构提交的高通量基因表达数据,目前已经发表的论文中涉及到的基因表达检测的数据可以通过这个数据库中找到,并且免费提供下载,对科研人来说真是非常友好的存在。
网址:https://www.ncbi.nlm.nih.gov/geo/
6.WHO Mortality Database
世界卫生组织死亡数据库(WHO Mortality Database)是对各个成员国的居民登记系统按照年龄、性别和死因汇编的每年死亡数据。
网址 : http://www.who.int/healthinfo/mortality_data/en/
7.Orphanet
Orphanet数据库是为所有用户提供罕见病和罕见病药物信息的开放门户,目的在于提高罕见病的诊断、护理和治疗效果。目前, Orphanet已收录了近6000种罕见病的各种相关信息,堪称目前世界上最为权威和丰富的罕见病知识库。通过对这个网站上的信息查询和数据分析,可以得到很多罕见病的有用资源。
网址:http://www.orpha.net/consor/cgi-bin/index.php?lng=EN
8.DGV
基因组变异数据库(Database of Genomic Variants, DGV)收录了健康样本中大于50bp以上的基因组结构变化信息,对应的文章发表在Nucleic Acids Research上。提供人类基因组结构变异的概况信息,旨在为基因组变异与表型数据相关的研究提供有用的对照数据目录,数据库信息持续更新中。
网址:http://dgv.tcag.ca/dgv/app/home
9.DECIPHER
利用染色体组分资源建立人类染色体不平衡和表型数据库(Database of Chromosomal Imbalance and Phenotype in Humans using Ensemble Resources, DECIPHER)是目前分子遗传学中最重要的生物信息学数据库之一。提供了一套全面的工具来识别与患者表型相关的基因组结构变异,挖掘潜在的致病基因,提高诊断率。所有的成果存在在一个在线数据库中,方便研究者查看和利用,对应的文章发表在Nucleic Acids Research上,文章链接:https://academic.oup.com/nar/article/42/D1/D993/1068216。
网址:https://decipher.sanger.ac.uk/index
10.OMIM
在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man, OMIM)是目前分子遗传学中最重要的生物信息学数据库之一。数据库持续更新,主要着眼于可遗传的或遗传性的基因疾病,包括文本信息和相关参考信息、序列纪录、图谱和相关其他数据库。
对于遗传分析和咨询工作来说,OMIM是使用频率最高的数据库(可能没有之一),它对于确认基因型和表型之间的关系至关重要。
网址:https://omim.org/
11.Comparative Toxicogenomics Database
比较基因组数据库(Comparative ToxicogenomicsDatabase, CTD)是一个强大的、公开可用的数据库,整合大量化学物质、基因、功能表型和疾病之间相互作用数据,为疾病相关环境暴露因素及药物潜在作用机制研究提供极大便利。它提供了关于化学基因/蛋白质相互作用、化学疾病和基因疾病关系的相关信息。这些数据与功能和路径数据相结合,以帮助验证关于环境影响疾病的机制假设。
网址:http://ctdbase.org/
CTD数据库主要有六大功能:
查询和疾病相关的基因;
查询和疾病相关的化学物质;
查询与基因或蛋白相互作用的化学物质;
查询与化学物质相互作用的基因或蛋白;
查询基因/蛋白与化学物质相互作用参考文献;
查询化学物质相关GO功能条目;
12.Kaplan Meier Plotter
Kaplan-meier Plotter数据库基于GEO、EGA以及TCGA等公共数据库的基因芯片和RNA-seq数据构建而成,评估了54, 675个基因在21种癌症中对于生存率的影响,包括乳腺癌(6234例)、卵巢癌(2190例)、肺癌(3452例)和胃癌(1440例)。Kaplan-meier Plotter数据库通过整合基因表达信息以及临床预后价值进行Meta分析以及生存相关分子标志物的研究、发现以及验证。
在分析某一特定基因的预后价值时,Kaplan-meier Plotter数据库以该基因表达量的不同分位数为标准将患者分为两组,通过Kaplan-meimer生存图对两个队列进行比较并计算出HR,95%CI以及logrank P值。目前数据库对于mRNA水平的研究证据最为充分,miRNA、DNA以及蛋白水平的研究也在飞速发展。
网址:http://kmplot.com/analysis/
Kaplan-meier Plotter数据库,其操作上的选择更为丰富,可以直接用于论文无需后期处理,可以与PrognoScan数据库进行相互补充,称得上预后分析数据库的老大哥了。目前,使用Kaplan-meier Plotter数据库发表的论文刊登在了Cell、Nature、Cancer Discovery等著名期刊上,非常值得大家进行学习和掌握。
生信数据库
一.Meta databases
元数据库,合并不同来源的相关数据以更新的或更加方便的形式提供新的数据,通俗的讲就是数据库的数据库,代表性的数据库主要有以下几个:
1.ConsensusPathDB
是否厌烦了GO和KEGG呢,试试看ConsensusPathDB吧!
ConsensusPathDB(分子功能互作数据库)整合复杂蛋白-蛋白、遗传、代谢、信号、基因调控和药物靶标相互作用以及生物化学途径等相互作用网络。互作数据以互补的方式集成(避免冗余),从而形成包含不同类型的互作网络。
网址:http://consensuspathdb.org/
有意思的是它整合了32个生物学功能基因集数据库,算是集大成者了,包括:
2.Neuroscience Information Framework
神经科学信息框架(NIF,Neuroscience Information Framework)是美国国立卫生研究院的计划蓝图神经科学研究所,成立于2004年的国家卫生研究院。整合了数百种神经科学相关资源,包括实验,临床和转化神经科学数据库,知识库,地图集和遗传/基因组资源等,提供了许多权威的与神经科学相关的数据链接。
网址:http://www.neuinfo.org/
3.GeneCard
GeneCard是一个全面、综合的收集所有已知注释的或者预测的人类基因全面信息网站。该数据库自动整合越150个以基因为核心的数据库,包括基因组、转录组、蛋白质组、遗传、临床和功能信息。
当你在研究一个基因时,你应该首先知道这个基因的研究进展,如该基因是否是个与癌症相关基因,它在各种细胞系或者组织中的表达,它的产物能与哪些蛋白质相互作用,参与了哪些细胞通路,这样才能不会制造相同的轮子。你可以根据你想了解的相关信息查询相关文献或者相关数据库或者网站,这样你就有可能需要看很多文献或者网站。这些基因的全面的信息均可以轻而易举的在GeneCard获得。
网址:https://www.genecards.org/
4.Ensembl Genomes
Ensembl Genomes由EMBL运营,提供细菌、原生生物、真菌、植物和无脊椎动物后生动物的基因组数据,以及用于操作、分析和可视化该数据的工具。
网址:http://ensemblgenomes.org/
5.UCSC Genome
UCSC Genome主要是动物基因组信息,基因组注释,基因组保守性和基因组共线性数据。是一个在生物信息领域非常重要的数据库,不仅提供了基因序列、SNP 位点、重复序列、启动子等等一系列的信息,同时,UCSC还包括了一系列的分析工具,方便用户浏览基因信息、基因组注释信息以及下载有关序列等。
网址:http://genome.ucsc.edu
6.UCSC Xena - 集大成者(TCGA, ICGC)
UCSC Xena(在线肿瘤公共数据分析)是一个癌症基因组学数据分析平台,支持对癌症样本的多种组学数据进行可视化和分析。
该平台内置了一些公共数据集,比如来自TCGA, ICGC等大型癌症研究项目的数据,不仅可以对数据进行分析,而且还提供了对应文件的下载功能。同时还支持对自己的数据进行分析,而且保证了数据的安全性,不用担心上传之后被别的用户窃取到。
网址:https://xenabrowser.net/
7.The Human protein atlas
导师给你一个基因,不知道它是啥,不知道它是否在你的目的细胞、组织、器官表达怎么办?转录组和单细胞分析得到的基因怎么快速查看它的编码蛋白表达模式、亚细胞定位、组织特异性表达?你想要的答案在The Human protein atlas!
HPA数据库(Human Protein Atlas)是基于蛋白组学、转录组学以及系统生物学数据,可以绘制组织、细胞、器官等图谱。它致力于全部24,000种编码人类蛋白质的基因在44个正常组织、18种肿瘤组织、69个细胞系和18种血液细胞的mRNA和蛋白质表达信息,而且还可以查阅肿瘤患者的生存曲线。
网址:http://www.proteinatlas.org/
二.Nucleic acid databases
1
DNA databases
1.1 一级核酸数据库(Primary databases)
下面三个数据库是核酸的主数据库,存储来自所有生物的核酸序列,接受用户提交核酸序列,每天交换更新数据以实现他们之间的最佳同步。
DNA Data Bank of Japan
网址:https://www.ddbj.nig.ac.jp/index-e.html
EMBL (European Bioinformatics Institute)
网址:https://www.embl.org/
NCBI (National Center for Biotechnology Information)
网址:https://www.ncbi.nlm.nih.gov/
1.2 二级核酸数据库(Secondary databases)
数目很多,先列出一些,欢迎补充:
OMIM (Online Mendelian Inheritance in Man):
网址:https://omim.org/
描述:一个管理人类基因和人类遗传疾病特征的数据库。
RefSeq
网址:https://www.ncbi.nlm.nih.gov/refseq/
描述:参考序列数据库收集了从病毒、细菌到真核生物等主要生物的核酸序列(DNA、RNA)及其蛋白质常产物。
1000 Genomes Project:
网址:http://www.internationalgenome.org/
描述:2008年1月启动的项目,对来自不同种族群体的一千多名匿名参与者的基因组进行了分析,并将数据公布于众。
SNP / Disease Databases
网址:https://www.snpedia.com/
描述:人SNP位点对表型的影响和贡献度数据库
2
Gene expression databases
这些数据库收集基因组序列,注释并分析他们,以提供公共访问。主要包括:
2.1ArrayExpress
ArrayExpress是高通量功能基因组数据的一个公共数据库。由两部分组成:
ArrayExpress Repository,它是一个MIAME(Minimum Information About a Microarray Experiment)支持的微阵列数据的公共档案库;
ArrayExpress Data Warehouse,它是选自档案库的基因表达谱及一致性重注释的数据库。
ArrayExpress与Geo数据库类似,里面都存储了大量的芯片表达数据,对于数据库挖掘的学员们来说,ArrayExpress是一个不可或缺的数据库。比如如果你在GEO数据库中搜索不到想要的结果时,可以在ArrayExpress数据库中搜索,它与GEO数据库互补,帮助大家完成数据的搜索和下载,方便后续的分析。
网址:https://www.ebi.ac.uk/arrayexpress/
2.2BioGPS
当你研究一个新基因,不知道在什么组织或者细胞中开始?当你构建一个基因克隆,不知道从哪个细胞提取RNA来PCR?那就来试试BioGPS吧!这是一个强大的基因和蛋白表达注释平台。
网址:http://biogps.org/#goto=welcome
2.3Gene Disease Database
基因疾病数据库,通过整理表型-基因型关系和基因-疾病机制,以及多种复合相互作用来理解复杂疾病的潜在机制。主要数据库如下:
①The Comparative Toxicogenomics Database (CTD)
网址:http://ctdbase.org/
②The Universal Protein Resource (UNIPROT)
网址:https://www.uniprot.org
③The Online Mendelian Inheritance in Man
网址:https://www.ncbi.nlm.nih.gov/omim
④The Ensembl genome database project
网址:http://www.ensembl.org/
⑥The Gene Disease Associations Database DisGeNET
网址:http://www.disgenet.org/
2.5Gene Expression Omnibus (GEO)
前面已描述.
3
Phenotype databases
3.1Cellular Phenotype Database
基于RNAi的细胞表型收集
网址:https://www.ebi.ac.uk/fg/sym
3.2dbGAP
网址:https://www.ncbi.nlm.nih.gov/gap
3.3The Human Phenotype Ontology
人类疾病表型描述的标准化术语,类比于Gene Ontology. 现有13000个条目和156,000关于遗传病的注释。
网址:https://hpo.jax.org/app/
3.4Genomics of Drug Sensitivity in Cance
阻断细胞内信号转导的靶向分子疗法在肿瘤研究领域方兴未艾,该策略基于对致癌基因和肿瘤进展相关基因的功能研究,以及肿瘤患者基因组特征与药物治疗反应之间相关性的临床观察,对肿瘤患者带来极大希望。
GDSC(Genomics of Drug Sensitivity in Cancer)肿瘤药敏基因组学数据库,整合肿瘤细胞系抗癌药物敏感性数据和细胞系基因组学数据,致力于发现肿瘤药物治疗靶点、药物敏感性基因型及其他可能预测抗癌药物疗效的biomarkers,无论是对我们做肿瘤治疗的基础科研还是指导肿瘤治疗临床工作都有极大帮助。
网址:http://www.cancerrxgene.org/
3.5GenomeCRISPR
GenomeCRISPR 是一个用于高通量 CRISPR/Cas9 筛选实验的数据库。包含大约 700 000 个单向导 RNA (sgRNA) 的性能数据,这些数据用于在 421 个不同人类细胞系中进行的约 500 个不同实验中。GenomeCRISPR 提供了多种数据挖掘选项和工具,例如快速基因命中查询和基因组跟踪视图,允许用户轻松调查和比较不同筛选的结果。
网址:http://genomecrispr.dkfz.de/
4
RNA databases
4.1miRBase
为研究者免费提供miRNA序列注释、预测基因靶标等信息,是关于miRNA全方位数据的一个重要的公共数据库。
网址:http://www.mirbase.org/
4.2Rfam
一个包含非编码RNA(ncRNA)家族和其他类型RNA信息的数据库。根据多序列比对结果,二级结构的一致性,协方差模型对各种RNA及顺式作用元件进行了分类整理。
网址:http://rfam.org/
4.3RNAcentral
它的目标和内容是一个综合性覆盖所有非编码RNA信息全方位无死角的统一的数据库。是2011年在BBSRC的资助下由EBI牵头发起的一个项目。
目前RNACentral包括了Expert数据库47个,其中有35个数据库的数据已经整合进入了RNACentral,我们可以粗略地把这35个数据库分为几类:
网址:https://rnacentral.org/
三.Amino acid / protein databases
1
Protein sequence databases
1.1Swiss-Prot/Uniprot
网址:https://www.uniprot.org/
描述:结合了从文献中提取的信息和生物鉴定者评估的计算分析,是一个手动注释的非冗余蛋白质序列数据库。
1.2Database of Interacting Proteins (Univ. of California)
网址:https://dip.doe-mbi.ucla.edu/dip/Main.cgi
描述:记录了实验确定的蛋白质之间的相互作用。
1.3InterPro:
网址:https://www.ebi.ac.uk/interpro/
描述:通过整合多个蛋白相关数据库,提供了一个方便的对蛋白序列进行功能注释的平台,包括对蛋白质家族、结构域、功能位点的预测。
1.4neXtProt:
网址:https://www.nextprot.org/
描述:人类蛋白质数据库。
1.5PROSITE:
网址:https://prosite.expasy.org/
描述:收集了有显著生物学意义的蛋白质位点和序列模式,并能根据这些位点和模式快速并可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。
1.6Protein Information Resource
网址:https://pir.georgetown.edu/
描述:是一个全面的、经过注释的、非冗余的蛋白质序列数据库。可帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。
1.7SUPERFAMILY:
网址:http://supfam.org/SUPERFAMILY/
描述:一个包含所有蛋白质和基因组结构和功能注释的数据库。
2
Protein structure databases
Protein Data Bank (PDB)
网址:http://www.rcsb.org
描述:一个专门收录蛋白质及核酸的三维结构资料的数据库,以下为PDB成员网站:
Protein DataBank in Europe (PDBe):https://www.ebi.ac.uk/pdbe/
ProteinDatabank in Japan (PDBj):https://pdbj.org
Research Collaboratory for Structural Bioinformatics (RCSB):https://www.rcsb.org
Worldwide Protein Data Bank:http://www.wwpdb.org/
3
Protein model databases
3.1ModBase:
网址:https://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi
描述:一个注释比较饭白纸结构模型的数据库。
3.2Protein Model Portal (PMP):
网址:https://www.proteinmodelportal.org
描述:结合了数个蛋白质结构模型数据库的元数据库,提供模型构建和质量评估等多种交互式服务。
3.3Similarity Matrix of Proteins (SIMAP):
网址:http://cube.univie.ac.at/resources/simap
描述:基于FASTA序列计算的蛋白质相似性数据库。
3.4Swiss-model:
网址:https://swissmodel.expasy.org
描述:致力于同源蛋白质的3D结构建模。
4
Protein-protein and other molecular interactions
4.1String
String数据库是一个可以用来检索已知蛋白和预测蛋白之间相互作用的数据库。除了可以对这些蛋白生成精美的蛋白质-蛋白质-互相作用(PPI)图,还提供了输入蛋白的的分析,包括常见的功能富集分析(GO、KEGG)等等。
网址:http://string-db.org/cgi/help.pl?subpage=api
4.2BioGRID
关于探究的蛋白质相互作用的数据库,上面介绍过String就是这样的数据库,为什么很多生信的文章都是使用STRING来探讨基因之间的相互作用关系,主要原因还是STRING支持输入多个基因,寻找多个基因之间的相关作用关系。但是如果我们只有一个基因的话,想要知道这个基因和其他什么基因有关系的话,这个时候,STRING虽然也能做,但是预测的结果和结果的多样性就没有另外一个数据库好了,这个数据库就是 BioGRID。
网址:https://thebiogrid.org
4.3IntAct Molecular Interaction Database
从相互作用分析的数据来源而言,和BioGRID数据库一样,所有 IncAct 数据库当中的相互作用都来自于相关文献当中的数据。但是和BioGRID 这类不同的是, BioGRID 数据库主要还是来分析蛋白之间的相互作用关系,而 IncAct 则纳入了其他组学和蛋白的相互作用分析,比如 miRNA, lnRNA 等等。另外,一般的相互作用数据库只能分析同一物种内的相互作用关系。而在 IncAct 当中则可以对物种之间的相互作用关系进行分析。
网址:https://www.ebi.ac.uk/intact/
Signal transduction pathway databases
信号转导通路数据库.
1.NCI-Nature Pathway Interaction Database
NDEx提供了一个开源框架,科学家和机构可以共享、存储、操作和发布生物网络知识。
网址:http://www.ndexbio.org/#/
2.Netpath
人类信号转导通路数据库,拥有45个信号通路,包括在免疫系统调节和癌症调节中起主要作用的通路。
网址:http://www.netpath.org/
3.Reactome
Reactome项目成立于2003年,是一个免费、开源的信号和代谢分子的关系数据库,提供了另外一种版本的经典代谢通路图谱。里面包含了关于信号传导、转运、DNA复制、代谢和其他转运相关分子网络。目前该库涵盖了16个物种的通路研究,包括七个哺乳动物,以及一些常见的模式生物。在通路的内容上则包含了经典的代谢通路、信号转导、基因转录调控、细胞凋亡与疾病。数据库引用了100多个不同的在线生物信息学资源库,包括NCBI、Ensembl、UniProt、UCSC基因组浏览器、ChEBI小分子数据库和PubMed文献数据库等。
网址:https://reactome.org/
Metabolic pathway and protein function databases
代谢途径和蛋白质功能数据库
1.BiGG Models
BiGG Models 是由美国University of California, San Diego 创立的基于代谢组学的系统生物学整合数据库。该数据库的最大特点是含有各类模式生物的代谢谱图模型。用户可以直观的调取各种生物的整体代谢通路,也可以查看某个具体的生化反应。同时也可以进行代谢产物搜索。
该数据库将70多种已发表的基因组规模的代谢网络整合到了一起,并且有一组标准化的BiGG ID。目前含有2766个代谢产物和3311条代谢生化反应。但是仅仅描述了代谢通路和生化反应信息,缺少代谢产物绝对浓度,以及其临床应用和意义方面信息。
网址:http://bigg.ucsd.edu
2.BioCyc Database Collection
BioCyc 数据库是一款集物种基因组、通路信息及组学分析的功能数据库(BioCyc=Databases + Tools),由 SRI International 所开发。集合了超过 19000 个测序生物体的基因组和代谢途径的参考,如微生物、人类、酵素、苍蝇及小鼠等及其他真核生物(如真菌、植物)。
BioCyc 收集了14558个通路/基因组数据库,每一个数据库描述了单个有机体的基因组和代谢通路,同时提供多种用于组学数据导航和可视化的分析工具,如 Genome informatics tools、Pathwayinformatics tools、Omics data analysis 等。
网址:https://biocyc.org
3.BRENDA
酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。
网址:http://www.brenda-enzymes.org
4.HMDB
人类代谢组数据库(Human Metabolome Database ,HMDB) 是由加拿大代谢组学创新中心于2007年创立的代谢组学综合数据库。其中包含有关人体中发现的小分子代谢物的详细信息。它旨在用于代谢组学、临床化学、生物标志物发现和普通教育中的应用。
下属还有四个子库DrugBank, T3DB, SMPDB and FooDB 。目前不支持批量搜索,仅限于单个代谢产物搜索,搜索效率较低。不支持代谢通路搜索、代谢化合物浓度搜索等。Drugbank包含约2832种药物和 800 种药物代谢产物的等效信息,T3DB包含约3670种常见毒素和环境污染物的信息,SMPDB包含 132,335 种人类代谢、药物和疾病途径的途径图以及约 60,628 种其他生物的途径,FooDB包含约 70,000 种食品成分和食品添加剂的等效信息。
网址:http://www.hmdb.ca
5.KEGG PATHWAY Database
KEGG 数据库,是由日本京都大学于1995年创立,是世界上最大、最全的生物信息学数据库之一,其第一版于1995年上线,当时仅包含Pathway、Genes、Compound和Enzyme四个部分。目前KEGG已包含18个部分,17268种代谢物和460条通路,整合了基因组、化学、系统功能和健康信息,将已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能进行关联是KEGG数据库的特色之一。与其他数据库相比,KEGG的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,使研究者能够对其所要研究的代谢途径有一个直观全面的了解。含有部分代谢组学信息,但是数据库中的代谢物在生物体内的浓度、功能和疾病相关信息还需要进一步完善丰富。
网址:https://www.kegg.jp
好啦,今天就总结到这里了,小编含泪万字长篇的总结希望可以帮助到大家!
如有侵权,请联系本站删除!