01
研究背景
单细胞RNA测序(scRNA-seq)技术是一种在单细胞水平上分析转录谱的革命性技术。近年来,人们越来越认识到细胞类型异质性分析和聚类之间的重要联系。在此基础上,无监督聚类已逐渐成为细胞类型注释的最有效方法,因为它能以无偏见的方式识别细胞类型。早期的研究,包括K-means,分层聚类和基于社区检测的算法已经被开发出来,以从单细胞转录组数据中发掘出不同的细胞类型。
本研究旨在探索并解决无监督聚类模型在单细胞RNA测序数据分析中的优化问题。尽管已有算法可以进行细胞类型聚类,但无监督聚类模型存在目标函数优化方向和最终生成的聚类标签可能不一致的问题,甚至可能是任意的。因此,我们的目的是开发一种新的无监督聚类算法,旨在识别和解释单细胞分子异质性和转录调控。
本研究的结果对于单细胞RNA测序数据的分析和细胞类型注释具有重要意义。首先,通过改进无监督聚类模型,我们可以提高细胞类型注释的准确性,从而更好地理解不同细胞类型在转录组水平上的特征和功能。其次,我们的研究将为单细胞研究领域提供一种新的工具和方法,有助于加深对细胞异质性和功能的理解。最后,准确的细胞类型注释在疾病研究和药物开发中具有重要的应用价值,可以帮助研究人员识别和理解疾病相关的细胞类型,为疾病的诊断和治疗提供新的思路和策略。
02
研究工作简介
DEPF方法概述
文章提出了一个动态集成剪枝框架(DEPF)来识别和解释单细胞分子的异质性。特别是,开发了一个基于剪影系数的指标来确定双目标函数的优化方向。此外,采用分层自动编码器将高维数据投射到多个低维潜空间集,然后通过基本聚类算法在潜空间中产生聚类集合。随后,设计了一种双目标果蝇优化算法,以动态地修剪集合中的低质量基本聚类。
DEPF由四个部分组成,以完成对单细胞分子异质性的可靠识别和解释(图1)。(i) 首先,通过去除低质量的细胞和基因来处理数据,然后使用对数转换对其余数据进行重新调整。之后,使用分层自动编码器生成多个潜在的低维空间集,以达到后续集合聚类的基本聚类结果。(ii) 为了指导修剪操作,开发了一个新的剪影系数指标,利用每个单元的平均簇内距离和单元到中心的距离之和来描述双目标函数的优化方向。(iii) 设计了一种双目标果蝇优化算法,以修剪集合体,利用对最终结果更有利的基本聚类方式。(iv) 基于最终的聚类结果进行了多样化的功能基因组分析,包括基因本体论富集分析、WikiPathways分析、蛋白质-蛋白质相互作用网络分析、转录因子-基因相互作用分析、miRNA-基因相互作用分析、蛋白质-药物相互作用以及疾病-基因关联分析,为解释scRNA-seq数据中发现的单细胞分子异质性提供新的见解。
图1 DEPF的整体框架
DEPF在scRNA-seq数据的细胞聚类方面性能卓越
作者在28个真实scRNA-seq数据集和一个来自不同平台和物种的大规模真实scRNA-seq数据集上进行了多个实验。28个真实scRNA-seq数据集的样本量从90到72914不等,而大规模真实scRNA-seq数据的大小超过了10万。就平台而言,28个真实scRNA-seq数据集来自9个平台。大规模的真实scRNA-seq数据,来自10X基因组学平台。在组织方面,数据集涉及到人类(17个数据集)和小鼠(12个数据集)。为了评估DEPF划分细胞簇的质量,作者采用了ARI和NMI这两个指标。
在28个真实的scRNA-seq数据集上,作者对DEPF与10个单细胞聚类算法进行了比较。这些算法包括scDHA、k-means、SC3、Seurat、SCANPY、SHARP、CIDR、SINCERA、SAME聚类和SAFE聚类。此外,作者还与6个深度聚类算法进行了比较,包括GraphSCC、scziDesk、scDCC、DCA、DEC和scGAE。另外,作者还与9种集成聚类算法进行了比较,包括LWEA、U-SENC、ECC、ECPCS-MC、KCC、LWGP、MCLA、PTGP和SEC。结果表明DEPF可以提供比这些单细胞聚类算法更好的性能。在大规模数据集上,DEPF与多种单细胞算法的比较中,取得了卓越的成绩。这表明DEPF在单细胞分析中具备更高的准确性和鲁棒性,为研究人员提供了一种强大的工具来解析单细胞转录组数据,揭示细胞间的异质性和转录调控机制。
双目标函数与优化方向的影响
作者在DEPF中加入了一个有方向的双目标函数;因此,对于各种scRNA-seq数据集来说,确定双目标函数的优化方向是至关重要的。为了证明具有优化方向的双目标函数的功效,我们比较了五个不同版本的DEPF:原始DEPF、无方向DEPF、反方向DEPF和两个单目标DEPF(Cp-DEPF、Dev-DEPF),其中无方向意味着双目标函数的方向只有正的("+"),反方向意味着与原始DEPF的方向相反(从 "+"到"-"和"-"到 "+"方向相反)。NMI指标被用来评估不同版本的DEPF在28个scRNA-seq数据集上的表现。
图2结果表明,由于DEPF是一种无监督的算法,不能保证DEPF在所有28个scRNA-seq数据集上都能产生最高的NMI值。但是,总体来说,双目标函数和优化方向是DEPF聚类性能的重要保证。
图2 双目标函数与优化方向的影响
DEPF可以识别其他方法无法识别的罕见细胞类型和小细胞团
为了研究DEPF是否能检测到其他方法检测不到的稀有细胞类型和小集群,作者在Wang、Baron(mouse)、Segerstolpe和Klein等含有稀有细胞类型和小集群的数据集上,将DEPF与其他六种方法(包括DCA、DEC、GraphSCC、scDCC、scGAE和scziDesk)进行了比较,以便深入检查。图3结果表明,DEPF可以在这些数据集上检测到其他方法无法检测到的罕见细胞类型和小集群;例如,在Wang数据集上,DEPF准确地识别了伽马细胞,而其他算法则将其与其他细胞混合在一起。在Baron(mouse)和Segerstolpe数据集上,DEPF成功地划定了导管细胞,而其他算法在识别导管细胞簇方面表现很差。DCA、DEC、scDCC、scGAE和scziDesk将导管细胞簇分为两部分,而GraphSCC将导管细胞簇分为三部分。此外,DEPF、DCA和GraphSCC在Klein数据集上有效地识别了d2集群,而DEC、scDCC、scGAE和scziDesk在d2集群中包括其他集群内的细胞。总的来说,我们提出的DEPF在识别细胞类型方面优于或补充了现有的方法,并可靠地检测到了罕见的细胞类型和小集群。
图3 DEPF识别罕见细胞类型和小细胞团
DEPF可以识别出其他传统方法未能检测到的新型集群
为了测试DEPF是否能识别其他传统方法无法检测到的新集群,作者将DEPF应用于结直肠癌(CRC)数据集。为了估计这个数据集的合适的聚类数量,作者首先通过在DEPF上指定14个种群来获得不同的标签分布,对聚类空间进行从2到15的迭代搜索。完成迭代后,用平均轮廓系数(MSC)来评估果蝇找到的标签。结果显示在图4中。结果清楚地表明基质细胞被分为三个不同的亚组,包括软骨细胞、成纤维细胞和内皮细胞。
此外,为了确认这些新发现的细胞类型是否与以前的研究结果一致,作者解释了通过Wilcoxon秩和检验确定的每种细胞类型的前两个标记基因,包括它们在所有细胞中的表达分布。从图中可以看出,这些差异表达的基因主要分布在相应的聚类中。此外,作者还在CellMarker的细胞标记数据库中手动匹配了不同细胞类型的标记基因。这些标记基因可以与之前公布的相应细胞类型的标记基因相匹配,证明了基质细胞被识别为三个不同亚群的可行性:包括软骨细胞、成纤维细胞和内皮细胞。
图4 DEPF识别新细胞簇
结论
在本文中,作者提出了一个DEPF来识别和解释单细胞的异质性。DEPF整合了无监督降维、集成聚类和一个双目标果蝇优化算法。特别是,为了指导优化,作者设计了一个指标来确定双目标函数的优化方向。此外,还提出了一种双目标果蝇优化算法来迭代搜索最优聚类结果。为了证明DEPF的有效性,作者将其应用于28个真实scRNA-seq数据集和一个大型真实scRNA-seq数据集。实验结果表明,DEPF在NMI和ARI方面优于10种单细胞聚类算法、6种深度聚类算法和9种集成聚类算法。生物可解释性以及转录和转录后调节器表明,DEPF可以发现有生物学意义的模式。
03
工作的亮点、新颖性和意义
DEPF基于自开发的四个模块(归一化、分层自动编码器、聚类合集、动态集成剪枝)提供了4个亮点:
(1)DEPF开发了一个基于剪影系数的指标来确定双目标函数的优化方向,从而克服了目标函数的优化方向和最终生成的聚类标签不一致问题。
(2)动态集成剪枝:许多可能比所有更好。动态集成剪枝剪是DEPF的一个核心模型,它会通过去除合集中的群组所产生的不需要的费用来影响DEPF的聚类能力。
(3)DEPF识别出罕见细胞类型和小集群。DEPF在识别细胞类型方面优于或补充了现有的方法,并可靠地检测出罕见的细胞类型和小集群。
(4)DEPF识别出新集群。DEPF可以识别出其他传统方法未能检测到的新型集群。
04
论文信息
Fan, Y., Wang, Y., Wang, F., Huang, L., Yang, Y., Wong, K., Li, X., Reliable Identification and Interpretation of Single-Cell Molecular Heterogeneity and Transcriptional Regulation using Dynamic Ensemble Pruning. Adv. Sci. 2023, 2205442.
https://doi.org/10.1002/advs.202205442
05
研究团队简介
李向涛教授/博士生导师。吉林大学人工智能学院。近年来,团队通过挖掘生物数据中蕴含的生命范式,解决从基因组学到蛋白质组学等不同层面上的生物学问题,来推动生物学与计算智能的融合,为进一步整合基因组、转录组、蛋白质组等多组学信息理解疾病的发病机理提供基础。已以第一作者或通讯作者在Nature Communications,Advanced Science,IEEE Transactions on Cybernetics,Bioinformatics,PLoS Computational Biology,Briefings in Bioinformatics,Communications Biology等学术期刊上发表相关论文约100篇。担任国际期刊BMC Bioinformatics、PeerJ Computer Science、Scientific Reports等编委。主持国家及省级自然科学基金等科研项目十余项。2022年获省优青,2021年获省创新拔尖人才。
转自:“科学进展”微信公众号
如有侵权,请联系本站删除!