在过去三十年中,分子生物学的发展使基因表达相关研究数量激增,研究者们将将他们的研究数据发布在可免费向大家提供基因表达数据集的公共存储库-GEO中。
基因表达分析是深入了解样本组之间生物学和表型差异的机制和过程的有力工具。尽管基因表达数据集广泛可用,但它们的访问、分析和集成并非易事,需要特定的专业知识和编程能力。因此Guy P Hunt等人开发了『 GEOexplorer 』网络服务器,并将研究成果发布在Nucleic Acids Research(IF=16.971分)上,让科研人员无需精通编程即可访问、整合和分析基因表达数据集。
Nucleic Acids Res. 2022 May 24:gkac364.
doi: 10.1093/nar/gkac364.
01
简介
GEOexplorer 是一个用于探索、生成和分析转录组数据集的 Web 服务器和 R 包,使用户能够充分利用来自自己内部实验和公开数据库的高通量数据,且不需要编程能力或深入的统计知识即可使用。
总之,GEOexplorer 旨在让没有编程技能的用户能够执行基因表达分析,通过其友好的图形界面,使用户可以轻松地对微阵列和 RNA-seq 数据集进行交互式和可重复的基因表达分析,同时产生丰富的交互式可视化,以促进数据探索和解释,并提供丰富的分析技术选择和可发表的图表。
官方网址:https://geoexplorer.rosalind.kcl.ac.uk/
02
工作流程
GEOexplorer 是一种用于分析基因表达数据集的工具。
用户可以上传自己的基因表达数据集或来自 NCBI GEO 的源基因表达数据集。
用户能够组合不同的基因表达数据集并执行批量校正以使其具有可比性。
然后,用户可以从许多转化程序中进行选择,以应用于基因表达数据集。GEOexplorer 然后执行探索性数据分析,使用户能够探索基因表达数据集并确定用于差异基因
GEOexplorer 将基因表达分析分为三个不同的过程:
探索性数据分析(EDA),旨在全面了解基因表达数据集。
差异基因表达分析(DGEA),旨在识别两组之间在统计上上调或下调的基因;
基因富集分析,旨在提供差异表达基因的生物学背景,助于开发新的疾病诊断和治疗方法。
03
使用教程
01
将GEO数据集加载到GEOexplor上
以 GEO RNA-seq 数据集 GSE93939为例进行探索。该数据集包含动眼神经和脊髓运动神经元的基因表达谱。动眼神经运动神经元对致死性运动神经元疾病肌萎缩侧索硬化症 (ALS) 的退化具有弹性。因此,比较动眼神经元与脊髓运动神经元的基因表达谱可能表明动眼神经元的保护机制。
有两种方法可以将GEO 数据集自动加载到 GEOexplorer:
1.使用GEO搜索功能
点击搜索按钮。将加载包含结果的表:
2.使用GEO登录代码
02
执行探索性数据分析
将数据集加载到 GEOexplorer 后,对 GEO 数据集和用户上传的数据集以及微阵列和 RNA-seq 数据集执行探索性数据分析的过程非常详细 。
1.检查RNA-seq数据集是否包含转换后的数据
为了让 GEOexplorer 执行差异基因表达分析,RNA-seq 数据集必须包含原始计数,而不是转换后的计数。分析微阵列数据集不需要此步骤。
点击“Analyse”后,将进行探索性数据分析,并可以查看结果。
注意:虽然转换后的数据集不应用于差异基因表达分析,但它们可用于探索性数据分析。
2.回顾探索性数据分析的结果
检查 RNA-seq 数据集是否包含转换后的数据后,可以继续执行探索性数据分析。
注释:
group1:这允许您确定基因表达数据集是否已标准化。如果微阵列数据集未标准化,则应在差异基因表达分析期间应用强制标准化。
group2:显示每个主成分内的变异量。
group3:这允许您识别基因表达数据集是否包含大量变异。如果微阵列数据集具有很强的平均方差趋势,则应在差异基因表达分析期间应用 limma 精度权重。
group5:这允许您识别相似实验条件的组。在差异基因表达分析期间可以探索这些不同的组。
03
进行差异基因表达分析
如果 RNA-seq 不包含转换数据差异基因表达分析。如果您在探索性数据分析期间应用了对数转换或每百万转换的计数,请不要担心,因为 GEOexplorer 将使用非对数转换和非每百万计数数据。
特别注意:作为差异基因表达分析的一部分,需要定义两组要比较的实验条件,以识别两组之间表达不同的基因。
注释:
04
进行基因富集分析
执行差异基因表达分析后,我们进一步进行基因的富集分析。
05
将数据集转换为GEOexplor所需的格式
如果你的数据集未在 GEO 上发布,或者它在 GEO 上发布但无法自动加载的话,就需要将基因表达数据集转换为 GEOexplorer 可以使用的格式。
1.识别GEO数据集未能加载到GEOexplorer
在此例中,使用 GEO 登录代码GSE142654。
2.下载GEO数据集
无法自动加载到 GEOexplorer 的 GEO 数据集需要下载并格式化为要处理的正确格式。
第 6 步:如果文件名以 .gz 或 .tar 结尾,您需要解压缩或解压缩文件。下面网站可以做到这一点:
解压缩(https://gzip.swimburger.net/)
解压(https://www.ezyzip.com/open-extract-tar-file-online.html)
接着第7步:
注意:有几种方法可以将 GEO 计数矩阵文件转换为 GEOexplorer 基因表达文件模板格式。然而,Excel 是迄今为止最简单的。在本例中,我们将 GEO 计数矩阵文件导入 Excel。step9:打开Excel
第22步:将更新的GEOexplorer 基因表达模板保存为CSV。
05
将数据集上传到GEOexplorer
如果是你自己的数据,则吸烟将数据集上传到GEOexplorer上,步骤如下:
第 9 步:像往常一样继续您的分析。
参考来源:
1.https://geoexplorer.rosalind.kcl.ac.uk/#tab-4903-5
2.Hunt GP, Grassi L, Henkin R, Smeraldi F, Spargo TP, Kabiljo R, Koks S, Ibrahim Z, Dobson RJB, Al-Chalabi A, Barnes MR, Iacoangeli A. GEOexplorer: a webserver for gene expression analysis and visualisation. Nucleic Acids Res. 2022 May 24:gkac364. doi: 10.1093/nar/gkac364. Epub ahead of print. PMID: 35609980.
转自:科研猫
如有侵权,请联系本站删除!