Genome Biology | Epiphany: 一种预测Hi-C互作的新方法
2023/6/26 15:07:10 阅读:53 发布者:
当前许多深度学习模型可根据一维DNA序列预测三维空间互作,但缺少准确预测不同细胞类型间差异三维互作图谱的方法。为解决此科学问题,斯隆-凯特琳癌症中心Christina S. Leslie教授团队开发了epiphany,可根据一维表观信号来预测细胞类型特异性的Hi-C互作图谱。该方法使用Bi-LSTM (Bidirectional long short-term memory) 网络来捕捉长程互作依赖并且选择GAN(生成对抗网络)结构去增强图谱的真实性。Epiphany模型表现出优异的普适性,既能生成单条染色体内部的三维互作,又能根据表观信号的差异准确预测不同细胞类型的TAD结构或是互作方式的差异。
细胞核内染色质三维层级结构折叠在调控基因表达、复制时间核细胞分化中具有重要作用。使用Hi-C,Micro-C, HiChIP和ChIA-PET结合下一代测序技术能探究全基因组范围内的染色质空间折叠结构。目前大型研究项目或是个人实验室广泛使用一维表观组学方法来确定多种人类和小鼠细胞中的调控元件和染色质状态,如:DNase I hypersensitive site mapping,ATAC-Seq、ChIP-Seq和CUT&RUN技术。虽然现在一维的表观组学已经成为常态的分析方法,但是与三维基因组结合依旧相对困难且代价相当昂贵,且三维基因组数据需要大量细胞,不同细胞类群细胞数目少,难以获得高分辨率三维图谱。由此从特定细胞类群中容易获得的一维表观组学数据来预测特定细胞类群的三维空间结构显得尤为重要。这样的模型可以用于预测一维基因组中对三维结构的扰动,比如TAD boundary的缺失或是远端调控元件的失活将如何影响各类型细胞的三维空间结构。
最初机器学习方法从一维表观组数据或是DNA序列来预测三维空间互作会将相互作用对和非相互作用对作为相对独立的样本来训练。比如HiC-Reg使用随机森林模型从锚定基因组区间对的表观组学特征中来预测三维互作信号。最近开发的两种模型DeepC和Akita从DNA序列分别预测‘stripes’和submatrices特征结构的三维互作矩阵,它们能够捕获互助bin的非独立信号。DeepC提出一个迁移学习框架,首先通过预训练模型来预测DNA序列的表观基因组标记,随后对模型进行微调从而预测染色质的三维空间互作。Akita设计了一种深度卷积神经网络去从DNA序列来预测多种细胞类型的三维图谱。之前的研究给预测三维基因组结构领域开辟了光明的前景,同时DeepC和Akita模型在序列扰动(遗传变异或是局部染色质折叠)上具有一定的优势。但是,这些方法同样有很大的限制。首先这些方法都较为侧重从一维序列来预测三维结构,需要海量的计算资源来获得有效的信息。此外缺少细胞类型特异的特征信息作为输入数据,因此生成的模型无法迁移,无法预测新细胞的三维空间结构,虽然Akita也捕获了特异细胞类型的三维结构,但其更侧重于预测各细胞中的相似结构。
基于以上背景,作者开发了一种新型的神经网络模型Epiphany,该模型可利用DNase I hypersensitive site、CTC、H3K27ac、H3K27me3和H3K4me3数据来预测细胞类型特异性的三维空间互作。Epiphany 使用一维卷积层从输入的表观tracks中学习序列的局部特征,同时使用Bi-LSTM来捕获表观基因组的长程依赖关系,最后结合生成对抗网络来提升结果的准确性。作者开发此工具是为了能预测可用于下游计算分析的三维互作图谱,最后作者使用了多种矩阵标准化方法KR、ICE以及HiC-DC+的Z-score和Observed/Expected去评估该模型的性能。Epiphany是使用MSE或者结合MSE和对抗损失来增强真实而非高度平滑的三维互作图谱。使用MSE+GAN确保提高了生物学的可解释性。GAN可将真实的互作图与预测的互作图区分开来从而提高模型预测的准确性。Epiphany表现出普适性,能用于预测不同细胞类型或是不同物种的三维空间结构,并且其预测的结果能准确鉴定出TAD结构和显著的相互作用。总而言之,Epiphany能在适当时间内结合表观组学数据预测不同类型细胞间的三维空间结构,同时还能预测表观组学信号的扰动对于三维空间结构变化的影响。
原文链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-02934-9#ref-CR13
转自:“植物生物技术Pbj”微信公众号
如有侵权,请联系本站删除!