投稿问答最小化  关闭

万维书刊APP下载

专访华大研究院黎宇翔所长:高性能计算加速华大时空组学分析进程

2022/9/29 16:02:59  阅读:190 发布者:

我们都知道,人类有着30亿碱基对组成的基因组,作为遗传密码,编码了20000多个蛋白质,它们决定了我们的生老病死等几乎一切重要性状。而对这些信息的获取都离不开基因测序(即检测这些碱基对的排列顺序)。2001年,在全世界科学家的努力下,人类基因组工作草图发布,标志着人类基因组计划(HGP)的成功,人类首次全面了解并掌握了自身的遗传密码。这不仅是一项伟大的科学工程,也为我们解码生命、了解生命起源、生长发育、认识疾病、治疗疾病、对抗衰老等奠定基础。

2009年,Nature Methods 杂志发表了第一篇真正的单细胞转录组学研究论文,此后的单细胞测序技术的快速进步,让我们从过去对个体的基因组学研究变成了对单个细胞的基因组研究,得以建立详细的组织细胞图谱,从而获得更多有关健康和疾病的独特见解。

2020年,Nature Methods 杂志将时空组学技术(Stereo-seq)评为年度技术方法。时空组学技术实现了生命在时间和空间维度上“细胞地图”的全面绘制,能够在细胞甚至亚细胞分辨率下观察健康状态和疾病状态下分子和细胞的分布及细胞之间的互作情况,真正实现了从高精度结构的角度去理解功能,这将大大推动对于生命复杂性和人类疾病的全面认知。

而在时空组学技术领域,无论是视场,还是分辨率,华大都处于世界领先地位,更是发表了一系列重大科研成果。

华大时空组学突破不断

20225月,华大生命科学研究院在国际顶尖学术期刊 Cell 以时空组学联盟(STOC)专题的形式发布了全球首批生命时空图谱。这也是首次从时间和空间维度上对生命发育过程中的基因和细胞变化过程进行超高精度解析,为认知器官结构、生命发育、人类疾病和物种演化提供全新方向。

华大生命科学研究院联合多个科研团队机构,基于华大时空组学 Stereo-seq 技术,绘制了小鼠胚胎发育时空图谱,该成果发表于 Cell 期刊。

20229月,华大生命科学研究院在国际顶尖学术期刊 Science 上发表论文,绘制了首个蝾螈脑再生时空图谱,这也是全球首个脑再生时空图谱。该研究为认知脑结构和发育过程提供助力,也为神经系统的再生医学研究和治疗提供新的方向。

华大生命科学研究院联合多个科研团队,基于华大时空组学 Stereo-seq 技术,绘制了首个蝾螈脑再生时空图谱,该成果发表于 Science 期刊。

短短半年内,华大的时空组学与单细胞技术相关成果已连续四次在 CellNatureScience 三大顶级期刊发表,实现了大满贯。这些成果为研究生命发育过程带来了全新的工具,而这些成果都离不开海量测序数据的支持。

近日,《生物世界》专访了华大生命科学研究院生物智能技术研究所黎宇翔所长,就华大在时空组学研究中面临的挑战、解决方案,以及后续发展计划进行了深入交流。

技术的发展带来海量数据

华大最近接连发布了全球首批生命时空图谱及全球首个脑再生时空图谱等时空组学领域的重大突破新成果。时空组学技术有着巨大的意义和应用潜力,但也面临着一个巨大挑战——数据量特别大。

黎宇翔解释道,做一个人的全基因组测序,只需要200GB的存储,经过极致优化后,15分钟就能完成分析。而如果做一个人全部细胞的时空组学测序,大概需要300EB数据存储(1EB=10亿GB),分析时间也将增加到900万个小时,无论是存储,还是计算分析,面临的挑战可想而知。

黎宇翔表示,为了应对时空组学应用中面临的海量数据和数据分析的挑战,华大内部已经做了非常多的优化工作,在数据存储方面,针对生物数据的特点进行专有存储格式的设计,能够有效提高存储利用率。单细胞和基因组学的数据都是基因表达矩阵,针对这种稀疏矩阵的编码能够极大减少存储消耗。在计算分析方面,目前正在进行两方面的尝试,一方面是开发低复杂度的新算法,能够实现效率的指数级提升,另一方面是结合专用的硬件特性进行优化,以更好地发挥硬件效用。

鲲鹏加速时空组学分析与产业转化

为了进一步释放时空组学的潜力,提高对时空组学数据存储和计算分析时面临的挑战,华大与华为鲲鹏进行了合作。华大与鲲鹏的工程师一起,将时空组学整个标准分析流程在鲲鹏上去进行了部署和优化。黎宇翔表示,这整个工作流程是很典型的高性能计算(HPC)结合人工智能(AI)算力的场景,包括了图像处理、高性能计算和深度学习的模块。时空组学分析对于高性能计算(HPC)的主要诉求,一个是高效并行的计算架构,另一个是针对一些特定问题采取一些异构计算的优化。通过初步的适配和调优之后,发现鲲鹏的架构线程数比较高,而且定点运算能力优势明显,在一些关键步骤上,例如时空组学中非常关键的Barcode的对比,以及RNA序列比对,能够带来40%-50%的效率提升,从而使得整个流程能节约近30%的时间。

在与鲲鹏的合作中,黎宇翔表示,能够感受到鲲鹏的两大优势,一是鲲鹏是基于ARM架构,线程数更高,而且线程能效比更强。而市面上主流的架构有些是超线程设计,并不能达到100%的线程和效果。而鲲鹏同时可运行任务数量或者同时可开展计算数量更高。二是鲲鹏的定点运算能力明显更强,以至于不需要做太多优化,仅仅做一些适配,就能实现效率上的翻倍提升。

谈及鲲鹏带来的具体帮助,黎宇翔认为,鲲鹏带来的效率上的提升,直接实现了两个方面的具体帮助,一是效率的提升直接降低了成本。二是实现了更好的时效性,例如测序仪上的数据处理一旦超出规定时间就会导致数据堆积。而临床上,一些传染病诊断或术前/术中诊断,对数据分析的实时性要求很高。在鲲鹏的帮助下,极大地加速了生物数据分析效率,为基础科研和产业转化带来更好的效果。

计算推动生命科学发展新趋势

近年来,通过高性能计算(HPC+人工智能(AI)以及异构计算的方式进行生命领域的研发,已经成为一个主要的技术趋势。例如,随着 AlphaFold2 的开源,越来越多的科研团队开始尝试通过 AI 预测蛋白结构。

在黎宇翔看来,这是目前业界的主流趋势,而这其实主要是因为最近几年来数据增长越来越快,尤其是生物数据的增长,每年都以超过摩尔定律的效率在提升。与此同时,CPU的性能增长已经越来越难以满足巨大的数据分析需求。而华大也一直在探索通过不同的方式进行相关优化,包括异构计算的架构,以及GPU等等。

黎宇翔提到,在时空组学的分析流程中,除了高性能计算(HPC)之外,还包括了对图像的一些特征识别,图像分割,细胞注释,以及聚类分析等等。这些问题其实都可以通过一系列的算法开发转变成深度学习来解决的问题,然后就能通过华为的昇腾AI基础软硬件平台进行硬件加速。而且这种加速效果要比CPU加速好得多,加速比在10-100这个级别。

近年来,除了测序技术的进步外,测序分析速度也得到了大幅提升,例如有纳米孔测序技术团队通过GPU加速计算实现了近乎实时的基因测序分析。

黎宇翔表示,硬件和软件的技术进步为异构计算路径提供了很大的帮助,这也让实时基因测序分析成为可能。华大未来也会在实时基因测序分析上做更多的投入和布局。

鲲鹏潜力巨大,未来可期

时空组学在生命科学研究及临床应用上拥有巨大潜力。华大与鲲鹏的合作中已经取得了令人非常惊喜的效果,基于鲲鹏的时空组学分析流程比之前快了30%左右。黎宇翔表示,这些亮眼的结果说明了鲲鹏的巨大潜力,而且确实能够给时空组学大数据带来切实的算力上的帮助,解决了当前面临的算力紧缺问题。

而在未来,华大还将与鲲鹏合作,进一步进行流程和代码的优化,更加充分地去利用鲲鹏的硬件资源。此外,华大还将结合华为昇腾AI基础软硬件平台进一步进行深度学习方面的优化,从而进行异构加速。

参考资料:

https://doi.org/10.1016/j.cell.2022.04.003

https://www.science.org/doi/10.1126/science.abp9444

转自:“生物世界”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com