2022/4/6 15:50:13 阅读:609 发布者:chichi77
今天给大家带来的是篇非肿瘤纯生信文章,2022年发表在Front Immunnol上。文章思路清晰,整体上就是基于差异表达分析、WGCNA 和 Lasso 回归挖掘疾病相关的hub基因,然后对差异基因进行GO、KEGG 和GSEA分析。然后ssGSEA分析表达谱中 28 个免疫细胞的浸润水平及其与中枢基因标记的关系。最后使用ROC曲线评估了hub基因在疾病中的诊断价值。一气呵成,确定了参与疾病进展的关键生物标志物和免疫相关途径及其与免疫细胞浸润的关系。看完直呼我也能做!
Front Immunol. 2022 Jan 5;12:809325.
长按阅读全文
期刊简介
在科研猫公众号后台--回复期刊名称-即可获期刊详情~
研究背景
抗中性粒细胞胞浆抗体 (ANCA) 相关性血管炎 (AAV) 是一种全身性自身免疫性疾病,通常会诱发快速进展性肾小球肾炎 (GN) 的进展。虽然肾脏是 AAV 最易感的器官之一,但遗传易感性在其发病机制中起着至关重要的作用。因此,深入了解ANCA 相关 GN (ANCA-GN)发生和进展相关的分子机制,对于疾病的早期诊断和治疗以及寻找新的治疗靶点具有重要意义。
主要研究结果
1.构建共表达网络与Hub模块识别
WGCNA是一种可以关联表型和基因的高级分析,通过WGCNA,可以快速锁定和ANCA-GN相关的基因集合,同时从中选出重要的关键基因(Hub gene)。在这里,作者发现黑色这个module是很关键的。
作者首先借助 R 软件的 WGCNA 软件包,利用GEO下载的 GSE108113 数据集表达谱数据构建加权共表达网络,然后选择与中位数绝对偏差前 25% 的基因进行分析。采用一步法构建共表达矩阵,最后获得12个基因模块,其中的黑色模块( 248 个基因)与 ANCA-GN 的相关性最高,其中的 GS 和 MM 之间存在良好的相关性。因此,黑色模块作为关键模块用于后续分析。
图2.WGCNA 模块的构建。
(A)中位绝对偏差在前 25% 的基因簇树状图。图中每个分支代表一个基因,下面的每种颜色代表一个共表达模块。
(B)模块-特征关系的热图。黑色模块与 ANCA 显着相关。
(C)与 ANCA 相关的模块中平均基因显着性的分布。
(D)黑色模块中基因模块成员资格与基因显着性之间相关性的散点图。WGCNA,加权基因共表达网络分析;ANCA,抗中性粒细胞胞浆抗体。
重现方法:
关于WGCNA的基础参见《【高阶】WGCNA共表达网络分析-让你的文章闪耀起来》,我们进行了详细的讲解,WGCNA的代码我们也已经公布,参见《【训练营】R语言 + GEO + TCGA + 多组学 + 免疫浸润 + WGCNA = 高分SCI》。
特别注意:既往推文中代码领取方式已过期!
新的领取方法可参考:
免费资源 | 【WGCNA·加权基因共表达网络分析】·领取指南
2.DEGs的鉴定和Hub基因的筛选
说到差异基因分析,R语言的“limma”包少不了,作者使用 R 软件(版本 4.0.1)的“limma”和“GEOquery”包对 GSE108113 数据集的数据进行数据标准化和探针注释,共获得 651 个 DEGs(以火山图展示:356 个上调基因和 295 个下调基因)。具有最高模块间连接性的基因被选为候选中心基因,具有生物学意义的基因通常具有更高的绝对 GS 值。根据筛选标准(GS绝对值> 0.20;MM绝对值> 0.80),将黑色模块中连接性最高的127个基因确定为候选中心基因。然后使用 R 软件的“glmnet”包将候选中心基因与 DEG 相交,最后进行 LASSO 分析筛选出5 个hub基因:CYP3A5、SLC12A3、biglycan [BGN]、TAPBP和TMEM184B。
图3 DEGs的鉴定和Hub基因的筛选。
(A)健康对照组和 ANCA-GN 组织之间 DEG 的火山图。
(B) DEG 和黑色模块之间的交叉点的维恩图。
(C) LASSO 回归在 10 倍交叉验证中绘制的 log ( λ )变化的部分似然偏差。使用最小标准 (lambda.min) 和最小标准的 1 个标准误差 (1-SE 标准) 在最佳值处绘制虚线垂直线。
(四)10 倍交叉验证中五个中心基因的 LASSO 系数曲线。DEGs,差异表达基因;ANCA-GN,抗中性粒细胞胞浆抗体相关性肾小球肾炎;LASSO,最小绝对收缩和选择算子。
重现方法:
筛选差异基因热图呈现参考重磅:GEO数据库挖掘教程(4)一体化分析代码(带视频+R代码分享)
火山图的学习可以参考【科研猫·绘图】朋友圈最火热的“火山图”(带R代码分享)、不用R,三分钟搞定火山图,
韦恩图可参考【科研猫·绘图】缤纷版·韦恩图(带R代码分享)、不用R,三分钟搞定韦恩图,
LASSO回归可参考临床研究新风向,巧用LASSO回归构建属于你的心仪模型、LASSO回归?岭回归?给你的临床模型提提速
特别注意:既往推文中代码领取方式已过期!
新的领取方法可参考:
免费资源 | 【科研绘图:31种绘图技能】·领取指南
免费资源 | 【临床模型构建】·领取指南
免费资源 | 【GEO数据库挖掘】·领取指南
3.对DEG进行功能富集分析
原文作者对上述筛选出来的差异基因进行了后续的功能富集分析,并绘制了比较高大上的和弦图(或者叫Circos图)。做者对DEGs进行 GO 和 KEGG 分析,发现DEG参与了 ANCA-GN 进展的生物学过程和异常信号通路
在生物学功能方面:GO富集分析表明,DEGs主要富集于防御过程、免疫和炎症相关过程、以及血管发育( 图 4 )。
在信号通路方面:KEGG分析表明,DEGs 主要富集于与免疫和炎症相关疾病相关的通路、免疫相关通路( 图 5 )。
图 4生物过程中 DEG 的 GO 分析。第一圈表示前 20 个 GO 术语,基因数对应于外圈。第二圈表示基因组背景中的基因数量和指定生物过程的 DEG 富集的P值。第三圈表示上调基因(深紫色)和下调基因(浅紫色)的比例。第四圈表示每个 GO 项的富集因子。GO,基因肿瘤学;DEGs,差异表达基因。
图 5 DEG 在代谢过程、生物系统和人类疾病中的 KEGG 分析。第一圈表示前 20 个 KEGG 术语,基因数对应于外圈。第二圈表示基因组背景中的基因数量和富集 DEG 的P值。第三圈表示上调基因(深紫色)和下调基因(浅紫色)的比例。第四圈表示每个 KEGG 项的富集因子。KEGG,京都基因和基因组百科全书;DEGs,差异表达基因。
重现方法:
GO/KEGG的学习可以参考系列推文:
①3分钟了解GO/KEGG功能富集分析;
②干货预警:3分钟搞定GO/KEGG功能富集分析(2);
③终极篇:3分钟搞定GO/KEGG功能富集分析-气泡图。
特别注意:既往推文中代码领取方式已过期!
新的领取方法可参考:
免费资源 | 【GO/KEGG功能富集分析】·领取指南
4.Hub基因表达水平和诊断价值的鉴定
在黑色这个模块中,作者找到了5个hub基因,为了证实自己找到的基因存在重要的临床意义,作者使用单独的外部数据集GSE104948中对这5个基因验证了hub基因的表达水平和临床价值,因此对hub基因在 ANCA-GN 和健康个体中的表达水平绘制了箱线图,并进行了生存分析。
图6.在基因表达水平验证hub基因。
(A) GSE108113 中hub基因的验证。与健康对照相比, TAPBP、TMEM184B和BGN在 ANCA-GN 中的表达显着高于健康对照,而CYP3A5和SLC12A3在 ANCA-GN 组织中的表达显着低于健康对照。
(B)验证 GSE104948 中的 hub 基因,结果与 GSE108113 的结果相同。ANCA-GN,抗中性粒细胞胞浆抗体相关性肾小球肾炎。
图 7.验证hub基因的诊断价值。
(A) GSE108113 中hub基因的验证。ROC 曲线和 AUC 统计数据用于评估区分 ANCA-GN 与健康对照的能力,具有出色的敏感性和特异性。(B) GSE104948 中hub基因的验证,结果与 GSE108113 的结果相似。这些发现表明这五个hub基因在 ANCA-GN 中具有出色的诊断效率。ANCA-GN,抗中性粒细胞胞浆抗体相关性肾小球肾炎;ROC,接收器操作特性;AUC,曲线下面积。
重现方法:
箱线图的学习可以参考:【科研猫绘图系列】看·箱线图·如何美丽动人(代码分享)
生存分析也很简单,可以参考:
【科研猫·统计】ROC曲线(2):一码到底、【科研猫·出品】TCGA超大批量生存分析教程、
【绘图】深度测评:生存分析还可以如此诱人!
特别注意:既往推文中代码领取方式已过期!
新的领取方法可参考本文末!
免费资源 | 【科研绘图:31种绘图技能】·领取指南
5.免疫细胞浸润及其与 Hub 基因的相关性
为了进一步研究 ANCA-GN 和健康对照之间免疫细胞浸润的差异,作者使用 ssGSEA 算法评估了它们的关系。
图 8.与 ANCA-GN 相关的免疫景观分析。
热图(A)和小提琴图(B)显示了 28 种免疫细胞在健康对照和 ANCA-GN 组织中的分布。
(C)五个hub基因与免疫细胞浸润的关系。
重现方法:
ssGSEA的学习可以参考:直击热点,巧用ssGSEA进行免疫浸润分析
热图绘制可以参考:基础模块-相关性热图,绘制热图;
不用软件,不用代码,还巨好看?!这个网站真的爱了
小提琴绘制可以参考:【科研猫·绘图】优雅版·小提琴图(带R代码分享)
特别注意:既往推文中代码领取方式已过期!
新的领取方法可参考:
免费资源 | 【科研绘图:31种绘图技能】·领取指南
6.GSEA免疫特征基因集的富集分析
为了探索 ANCA-GN 进展过程中免疫功能的潜在机制,作者将来自MsigDB数据库的免疫学特征基因组被用作 GSEA 的参考。
发现这些基因组主要在 CD4 + T 细胞、CD8 + T 细胞、B 细胞、单核细胞、外周血单核细胞 (PBMC) 和树突状细胞 (DC) 中富集较高。结果证明了免疫相关基因在 ANCA-GN 的发生和进展中所起的关键作用。
图 9 GSEA Immunologic 特征数据库的富集图。
重现方法:
GSEA的学习可以参考:
【科研猫·绘图】GSEA分析全攻略,带视频分享
GSEA高级分析:从本地,到R包,再到云,这次齐活了
特别注意:既往推文中代码领取方式已过期!
新的领取方法可参考:
免费资源 | 【科研绘图:31种绘图技能】·领取指南
小结
通过这篇实际的例子,我们看到,通过数据分析发表一篇7分的SCI文章还是比较简单的,而且都是“套路”,只要学会这些套路,做起来是非常省时省力的。如果在专业的技术人员带领下学习,上面的事情做起来都会是事半功倍。
如有侵权,请联系本站删除!