投稿问答最小化  关闭

万维书刊APP下载

《自然—方法》:袁瀚等开发基于DNA序列的卷积神经网络单细胞ATAC-seq分析模型

2022/8/31 10:18:48  阅读:114 发布者:

北京时间202288日晚23时,美国生物科技公司Calico Life Sciences研究员袁瀚David KelleyNature Methods上发表了题为scBasset: sequence-based modeling of single-cell ATAC-seq using convolutional neural networks”的研究成果。

该论文介绍了一种新的基于深度卷积神经网络的对单细胞ATAC进行建模的方法——scBassetscBasset在多个下游任务中展现了最先进的性能,包括细胞聚类,去噪,消除批次效应以及转录因子活动预测。

袁瀚为论文第一作者及通讯作者,David Kelley为论文通讯作者。

Single cell ATAC-seqscATAC)可以在单细胞水平上揭示表观基因组景观【1】。这项技术已经成功的被应用于获得细胞类型,揭示细胞异质性的调控机制,绘制与疾病相关的调控元件,以及重建分化轨迹【24】。然而由于数据高纬性和稀疏性的特点,scATAC的分析依然面临着大量挑战。已有的scATAC分析方法大致可以分为两种:利用DNA序列的模型,和不依赖DNA序列的模型。不依赖DNA序列的模型(例如PCA, VAE)利用peak-by-cell matrix中具有生物学意义的协方差来对细胞进行有效的表示(embedding)。这些方法依赖于额外的工具才能建立染色质开放区域(chromatin accessibility)与转录因子(transcription factorsTFs)之间的联系。另一方面,利用DNA序列的scATAC分析方法(例如chromVAR, BROCKMAN)虽然具有更好的可解释性,但由于模型相对简单,在学习细胞表示及可视化时表现较差【5】。

在这项最新研究中,袁瀚等提出scBasset ,一个基于DNA序列的深度卷积神经网络(CNN),来对scATAC数据进行建模。在bulk数据中,CNN 已经展示了预测表观遗传图谱的最先进性能,并已成功用于遗传变异效应预测和转录因子语法推断【69】。这类CNN模型一般用DNA序列作为输入,通过一系列的卷积层(convolutional layer)以及全连接层(dense layer)预测输入序列在不同细胞类型中的可及性(accessibility)。研究人员将模型视为一个特征学习(representation learning)机器。scBasset模型通过一系列的卷基层学习到了一个低维的sequence embedding。模型的最后一层是一个将这个embedding用于预测每个单细胞可及性的线性变换。这个线性变换矩阵包含着每个细胞的向量表示(图1)。我们可以把向量的每个潜在特征(latent feature)理解为代表着基于DNA序列的调控因素,例如转录因子结合点位或核苷酸组成。而线性变换的权重决定了每个细胞在多大程度上依赖于这些因素。研究人员将这些单细胞向量作为细胞表示,用于下游任务,例如可视化和聚类。scBasset在多个下游任务中展现了最先进的性能,包括细胞聚类,去噪,消除批次效应(batch effect)以及转录因子活动预测。

scBasset可以学习细胞表示。研究人员将scBasset最后一层的线性变换矩阵作为单细胞的低维表示。在三个不同的数据集上(Buenrostro201810x multiome PBMC10x multiome mouse brain),研究人员展示了基于scBasset的细胞表示相比于其他方法展现出了更优秀的聚类性能(图2)。

scBasset可以用于消除数据集中的批次效应。为了应对数据中的批次效应(batch effect),研究人员对模型框架进行了微调。具体来说,研究人员在卷积层之后增加了第二个全连接层,用以预测批次效应对可及性的贡献。在新的模型(scBasset-BC)中,与批次效应相关的可及性信息会被新的全联接层学习,而原有的全连接层仅会学习到有生物学意义的信息。研究人员在两个不同的数据集上比较了scBasset-BC与其他方法对于批次效应的消除效果,看到scBasset-BC可以在批次混合以及保留细胞的特异性之间获得最好的平衡(图3)。

scBasset可以在单细胞、单点位分辨率下预测转录因子活动。转录因子活动是染色质可及性的主要驱动力,而转录因子和DNA的结合具有序列特异性。因为scBasset可以从DNA序列预测染色质可及性,研究人员认为scBasset模型学习到了转录因子的序列特异性,从而可用以预测单细胞中转录因子的活动。为了预测单细胞中的转录因子活动,研究人员可以将一对DNA序列输入经过训练的 scBasset 模型。其中一段是合成的随机序列,另一段把第一段序列的中间部分换成了TF motif。比较scBasset对两段序列在每个细胞当中预测的可及性的差值,研究人员可以估计对应的转录因子在每个细胞当中的活动。分析显示,相比于chromVARscBasset可以更好的预测转录因子活动。另外利用in silico saturation mutagenesisISM)的方法,研究人员甚至可以预测每一个核苷酸在每个细胞中对可及性的影响,并将他们与转录因子活动对应(图4)。

scBasset已经在github上开源共享(https://github.com/calico/scBasset),欢迎使用。

相关论文信息:

https://doi.org/10.1038/s41592-022-01562-8

转自:“小柯生命”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com