应晓敏/伯晓晨团队开发基于生成式人工智能的新算法MIDAS,实现单细胞多组学数据的马赛克整合
2024/1/25 15:48:05 阅读:42 发布者:
目前,单细胞多组学技术日益成熟,测序数据也在不断增长。然而,不同组学组合、不同测序技术、不同测序样本的“马赛克”式单细胞数据的整合是该领域的巨大挑战。
2024年1月23日,军事医学研究院应晓敏团队和伯晓晨团队在 Nature Biotechnology 期刊发表了题为:Mosaic integration and knowledge transfer of single-cell multimodal data with MIDAS(利用MIDAS进行单细胞多模态数据的马赛克整合和知识迁移)的研究论文。
该研究提出了一种用于单细胞多组学数据马赛克整合及知识迁移的计算工具——MIDAS,首次实现了通用的单细胞多组学马赛克数据的模态对齐、数据补全、批次校正等整合功能,为构建大规模多组学细胞图谱、实现大规模单细胞多组学分析与知识迁移提供了重要的原创技术。
单细胞测序技术是近年来生命科学领域的突破性技术,能够检测单个细胞内的多种遗传物质与功能分子(例如RNA表达、蛋白质丰度和染色质可及性),从而揭示细胞在不同分子层面的异质性以及组学之间的关联,有助于更加深入地理解细胞功能,探索生命发育和疾病发生等机制。然而,随着测序技术的发展和测序数据的增长,不同组学组合、不同测序技术、不同测序样本的“马赛克”式单细胞数据的整合成为巨大的挑战。
在这项研究中,应晓敏团队和伯晓晨团队自主研发了基于生成式人工智能的新算法MIDAS。MIDAS假设每个细胞的多模态观测值是通过深度神经网络从两个与模态无关且解耦的隐变量生成的(即代表细胞异质性的生物状态,以及由单细胞实验引起的技术噪声)。其输入由不同单细胞样本(批次)的表达矩阵和批次编号向量组成。这些批次可能来自不同的实验,或是不同的测序技术(例如CITE-seq和ASAP-seq),因此可能存在不同的技术噪声、模态组合和观测特征。MIDAS的输出包括生物状态和技术噪声两种低维表示的矩阵,以及对缺失模态和特征进行了补全并消除了批次效应的表达矩阵。这些输出可以用于聚类、细胞分型、轨迹推断等下游分析。
MIDAS的功能概览与性能比较
该研究将MIDAS与scVAEIT、scMoMaT、Multigrate、StabMap等可以处理马赛克数据的方法进行了比较。UMAP可视化结果和定量评估结果表明MIDAS消除了批次效应,并很好地保留了生物信号,在不同的马赛克任务上表现稳定,且性能远优于国际同类算法。
MIDAS还可以高效而灵活地将参考数据集中的知识迁移到查询数据集中,从而方便处理新的单细胞多组学数据。此外,基于MIDAS降维后的隐变量可以对模态缺失的马赛克数据进行拟时序分析。当在不同组织之间迁移知识时,MIDAS在对齐异构数据集、识别已知细胞类型、发现未知细胞类型等方面也表现出优异的性能。
该算法对于揭示细胞的功能和分子调控机制、研究疾病的发生发展过程具有重要意义,为疾病诊断与精准治疗等应用提供了前沿技术支撑。
应晓敏(前排左二)、伯晓晨(前排右二)、何振(前排右一)、胡朔枫(前排左一)及团队其它成员合照
应晓敏研究员、伯晓晨研究员为论文共同通讯作者,何振副研究员、胡朔枫副研究员、陈垚文助理研究员为论文共同第一作者。
军事医学研究院应晓敏课题组长期招收博士后、博士生、硕士生、联合培养研究生和gap year实习生,从事人工智能与生物医学前沿技术及脑科学交叉研究。表现优秀者,推荐申请国外名校、国内“双一流”高校以及军事医学研究院的博士后与博士生。课题组具备充足的深度学习计算资源和完善的脑科学实验设备。有志者请联系yingxmbio@foxmail.com。
论文链接:
https://www.nature.com/articles/s41587-023-02040-y
转自:“生物世界”微信公众号
如有侵权,请联系本站删除!