2020年11月发表在BioMed Research International(IF:3.414)的结合了非肿瘤生信分析与网络药理的文章——《Based on Network Pharmacology to Explore the Molecular Targets and Mechanisms of Gegen Qinlian Decoction for the Treatment of Ulcerative Colitis》,以溃疡性结肠炎的GEO数据集为疾病基础,研究了葛根芩连复方药物治疗溃疡性结肠炎中可能参与的信号通路与分子对接结果展示,全文共8图5表,套路链条完整,可作为网络药理学入门文章复现,期待大家能有所收获,未来在更深入的学习基础上拓宽研究思路,加深研究论证强度,改造升级模板文章;学习文献思路,掌握复现方法,你离高分生信文章真的不远!
题目
Based on Network Pharmacology to Explore the Molecular Targets and Mechanisms of Gegen Qinlian Decoction for the Treatment of Ulcerative Colitis
1. 材料与方法
疾病:溃疡性结肠炎
物种:人类
数据来源:GSE38713(n=43)
2. 图标结果及复现
2.1使用工具
1)仙桃学术生信工具(https://www.xiantao.love/products)
2)HPA数据库 (https://www.proteinatlas.org/)
3)TCMP数据库(https://tcmspw.com/tcmsp.php)
4)Drug Bank数据库(https://go.drugbank.com/)
5)UniProt网站(https://www.uniprot.org/)
6)RCSB PSB数据库(https://www.rcsb.org/)
7)PubChem数据库(https://pubchem.ncbi.nlm.nih.gov/)
8)Cytoscape软件(bisogenet, cytoNAC APP)
9)OpenBabel、PyMol、AutoDock软件
2.2复现任务
Table1 | The total available compounds of GGQL
葛根芩连组分
Fig.1 | Gene volcano map shows the gene distribution in disease samples
差异基因火山图
Fig.2 | Gene heat map
差异基因火山图
Table 2 | The first 20 genes that are upregulated and downregulated.
Top20高、低表达基因
Fig. 3 | TCM compound-disease regulatory network
中药化合物-疾病调节网络
Table 3 | The 23 intersection genes sorted by logFC
按logFC排序的top23个交互基因
Table 4 | Topological analysis results by degree—the first 32 proteins
Top32个蛋白的拓扑分析结果表格
Fig.5 | GO enrichment analysis of GGQL targets in treating UC
葛根芩连治疗溃疡性结肠炎靶基因GO富集分析
Fig.7 | KEGG relational regulatory network
KEGG调控网络
Table 5 | The enrichment pathways corresponding to intersection genes
交叉基因富集通路分析
Table 6 | Binding energies of GGQL's key components to the target gene molecules
葛根芩连关键组分与靶基因结合能结果表格
Fig.8 | Partial diagram of molecular docking
分子对接结果部分示意图
3. 复现步骤
3.1 Table1. The total available compounds of GGQL. 葛根芩连组分
1)作者首先在TCMSP数据库中查询了葛根芩连的活性成分,共得到489个有效组分,其中葛根有18个活性物质,黄芩143个,黄连48个,甘草280个,从中筛选OB ≥ 30%且DL≥0.18的组分,共得到146个活性组分,罗列于Table1中
2)首先我们进入TCMSP数据库(https://tcmspw.com/tcmsp.php),分别输入葛根、黄芩、黄连、甘草,得到药物对应的组分,筛选其中口服利用度(oral availability,OB)≥ 30%.且药物样特性(drug‐like properties ,DL)≥ 0.18的成分,可以将页面中的结果全部复制到excel中,再使用excel的条件筛选功能批量筛选,整理得到原文中的table1
3)接着作者在DrugBank数据库中逐条检索以上146个化合物的靶标,并通过UniProt网站校准蛋白名并查询对应的基因名,共检索得到2660个葛根芩连药物靶标(葛根97个靶标,黄芩507个靶标,黄连287个靶标,甘草1769个靶标)
4)进入DrugBank网站,依次检索在TCMSP网站中得到的146种化合物的药物靶点,此篇推文种我们以甘草的活性成分之一槲皮素(quercetin)为例进行后续操作,其余分子操作同,在首页的检索框中输入药物名称,点击搜索,将“Targets“中的靶点与药物名称一一对应,整理至excel表格中
3.2 Fig.1 Gene volcano map shows the gene distribution in disease samples.差异基因火山图
1)Figure1中作者使用GSE38713数据集,对30例溃疡性结肠炎(Ulcerative Colitis,UC)与15例正常对照进行差异表达基因分析,阈值设定为p < 0.005且logFC > 1,共得到305个上调基因与263个下调基因,绘制了火山图与top20差异基因热图
2)进入仙桃学术(https://www.xiantao.love/products)数据集检索,输入GSE38713,选择全部样本添加至样本库,根据样本描述信息设定疾病组与对照组,提交进行差异分析,查看结果报告,下载差异分析结果表格
3)数据集检索模式下已经自动绘制了差异基因火山图与热图,我们可以在生信工具模式下进行个性化调整,进入“生信工具—数据集模块“,选择火山图,刚才分析的GSE数据集,设定阈值p < 0.005,提交分析
3.3 Fig.2 Gene heat map. 差异基因火山图,Table 2. The first 20 genes that are upregulated and downregulated. Top20高、低表达基因
1)火山图个性化调整同上,原文中选择展示top20差异基因,打开刚才下载的结果表格,按条件筛选,并整理Table2;在“基因列表“处输入想展示的基因名称即可;想按照样本分组聚类则选择“行聚类”
3.4 Table3. The 23 intersection genes sorted by logFC. 按logFC排序的top23个交互基因
1)Table3中为溃疡性结肠炎中差异表达基因与TCM及TCM活性成分靶基因的交集—23个交叉基因(intersection genes),我们目前有的是疾病差异表达基因与TCM靶标蛋白名称,首先需要将TCM对应的靶蛋白转换为基因,进入UniProt网站(https://www.uniprot.org/),点击“UniProtKB”,依次选择物种“Human”与已校正的蛋白信息“Reviewed”,下载excel格式的所有蛋白-基因信息,在excel中使用VLOOKUP函数或批量匹配功能,匹配得到Fig1中检索得到的药物组分靶蛋白对应的基因名称,使用仙桃学术生信工具的“基础绘图—韦恩图“,上传疾病差异基因与药物靶基因列表,下载Excel表格即可得到全部交集基因,由于药物靶基因多达2k+,推文中未逐一检索,故靶基因列表不全,此处仅演示操作过程
3.5 Fig. 3. TCM compound-disease regulatory network. 中药化合物-疾病调节网络
1)Figure3为葛根、黄芩、黄连、甘草药物活性成分与23个交叉基因的调节网络图可视化结果,使用Table3中整理好的药物组分与靶基因对应结果表格,将表格整理为3列,依次为“Ingredient、Interaction、Target“,打开Cytoscape软件,导入文件,选择对应关系,此处仍然以槲皮素(quercetin)为例,其他药物组分-靶基因网络操作相同,可在”Style“中对不同药物活性成分、交叉基因的颜色进行调整以示区分
3.6 Fig4. Topological analysis of the protein-protein interaction network. 蛋白-蛋白互作网络拓扑分析
1)Figure4中为筛选关键蛋白的过程图,使用“BisoGenet“插件,输入23个交叉基因,由于我们输入的是基因名,此处勾选”Gene identifiers only“,”Protein-Protein Interactions“,提交分析,得到830个nodes,10094条edges的网络1,接着选择”APPs—Network Analyzer—Network Analysis—Analyze Network“,下载分析表格,计算得到”Degree“中位数为15
2)一般可使用2倍中位数进行节点精简,此处按照原文中的DC>61进行第一次筛选,点击“Select—Node:Degree“,下限设置为61,”Apply“提交分析,ctrl+N将选中的节点另存为新网络,得到一个包含65个Nodes,583条Edges的新网络;在新网络中按照原文中的BC介于0–113.2,条件进行第二次筛选,在”Style“中对网络进行美化与调整,即得到蛋白互作网络精简过程图
3.7 Table4. Topological analysis results by degree—the first 32 proteins. Top32个蛋白的拓扑分析结果表格
Table4为按照Degree排序的top32个蛋白的详细信息,在Figure4中下载的分析表格中按需提取整理即可
3.8 Fig5. GO enrichment analysis of GGQL targets in treating UC. 葛根芩连治疗溃疡性结肠炎靶基因GO富集分析,Fig6. KEGG bubble. 葛根芩连治疗溃疡性结肠炎靶基因KEGG富集分析
1)Figure5、6分别为葛根芩连治疗溃疡性结肠炎靶点基因的GO、KEGG富集分析结果图,进入仙桃学术生信工具,“功能聚类(圈)—GO|KEGG—GO|KEGG富集分析“,上传23个交叉基因名,依次选择”全部GO条目“与”KEGG“,提交分析,保存结果至后台,查看结果分析报告
3.9 Fig7. KEGG relational regulatory network. KEGG调控网络
Figure7为14条KEGG通路与18个基因的网络图,基因节点大小与富集到的通路数目相关
3.10 Table5. The enrichment pathways corresponding to intersection gene. 交叉基因富集通路分析结果表格
Table5为KEGG富集通路中包含基因的详细描述表格
3.11 Figure8. Partial diagram of molecular docking. 分子对接结果部分示意图
1)Figure8中展示了(a) MMP3-berberine; (b) MMP3-coptisine; (c) MMP3-wogonin; (d) NOS2-stigmasterol; (e) MMP3-liquiritigenin; (f) IL1B-wogonin; (g) IL1B-quercetin; (h) MMP3-daidzin的分子对接结果部分示意图,此处我们以MMP3-stigmasterol作操作演示,首先在PyMol软件中打开蛋白大分子的PDB文件,输入“remove solvent”去除溶剂,“remove organic”去除原配体小分子,接下来进入正式的分子对接,可主要分为五大步骤:第一步、准备蛋白与小分子pdb文件,进入RCDB PDB网站(https://www.rcsb.org/),输入“MMP3“,可以看到大分子为溶剂存在条件,之后我们会进行处理不用担心,下载MMP3的pdb文件;小分子也可在PDB网站中检索,若无结果,可在PubChem网站(https://pubchem.ncbi.nlm.nih.gov/)中检索,下载2D版SDF文件,在OpenBabel软件中进行SDF文件转PDB文件
2)第二步、准备蛋白与小分子PDBQT文件,首先准备蛋白大分子的PDBQT文件,Autodock软件中“File-Real molecule”打开蛋白的pdb文件,去水“Edit-Delete water”,加氢“Edit-Hydrogens-Add“,计算电荷”Edit-Charges-Compute gaseigter“,添加原子类型”Edit-Atoms-Assign AD4 type“,输出PDBQT文件”File-Save-Write PDBQT“;接下来准备小分析PDBQT文件,删除刚才的蛋白分子文件”Delete Molucelues“,打开小分子”Ligand-Input-Open“,调整电荷”Edit-Charges-Check totals on residues“,如果分子电荷不为整数,弹出对话框,则点击”Spread charge-Dismiss“,判断root”Ligand-Torsion-Choose torsion-Done“,输出PDBQT文件“Ligand-Output-Save as PDBQT”
3)第三步、准备glg文件;首先打开蛋白大分子的pdbqt文件“Grid-Macromolecule-Open”,再打开小分子的pdbqt文件“Grid-Set map types-Open ligand”;设置网格范围”Grid-Grid box”,要求网格必须全部覆盖蛋白的活性结合位点(网页可查到),若查不到或手残了不想查就可以选择网格全部覆盖整个蛋白结构,依次调节xyz三个方向盒子与中心位置,调整好选择”File-Close saving current“;输出gpf文件”Grid-Output-Saving gpf“,运行”Autogrid-Run-Run autogrid“,选择好对应的文件和程序后,点击launch,会运行一段时间,等待对话框消失后得到了glg文件
4)第四步、对接得到dlg文件,清空蛋白和小分子文件,可直接右击目标分子,选择“delete“或”Edit-Delete All molecules“,”Docking-Macromolecule-Set rigid filename”,设置刚性文件名(即蛋白分子),”Docking-Ligand-Open”,打开小分子的pdpqt文件, “Docking-Search parameters-选择算法”,各有优劣,此处可选择粗略匹配,即“Local search parameters” ,“Docking-Docking parameters”,”Docking-output”,得到dpf文件, 运行” Run-Run autodock”,选择好对应的文件和程序后,点击”launch”,等待对话框消失就得到dlg文件
5)第五步,查看分子对接结果,”Analyze-Docking-Open”,打开小分子dlg文件,“Analyze-Macromolecule-Open”,打开大分子的pdbqt文件,”Analyze-Conformations-Play ranked by energy“,播放对接结果,点击对话框倒数第二个键设置可查看的内容,一般以结合能和氢键为考察指标,结合能应小于0;”Analyze-Glustering-Show“查看直观的结合能分布图,分子对接过程即到此完成
6)在PyMol可视化软件中打开最终结果,可进行背景颜色,小分子显示形式、色彩等调整,最后导出高分辨率
3.12 Table6. Binding energies of GGQL's key components to the target gene molecules. 葛根芩连关键组分与靶基因结合能结果表格
Table6为葛根芩连关键药物组分与靶基因结合能的表格,根据Fig8中AutoDcok中的对接结果查看整理即可得到表格
现在文章中所有的图表都复现完毕啦~ 最后依然是我们的保留节目——全文总结
4. 全文总结
1、这篇文章属于生信分析结合网络药理学套路,通过数据库挖掘到葛根芩连复方中的有效靶点;同时通过与疾病组与正常组的差异表达基因取交集,再由GO/KEGG富集分析交叉基因参与的生物学功能与信号通路,并构建药物活性成分-靶基因互作网络,最后分子对接模拟预测药物活性成分与靶基因的结合位点,工作量适中,属于中规中矩的网络药理学套路文章
2、数据库中挖掘的药物有效靶点还可以通过计算机模拟和体外实验(如SPR分析等)验证药物与靶分子之间的结合作用,如果有条件还可验证全新的分子间结合位点
3、再加上临床相关性分析与动物模型药物治疗生存分析或可增加文章的临床实用性
转自:仙桃学术
如有侵权,请联系本站删除!