文|《中国科学报》
提到张北、乌兰察布,你最先想到的是什么?草原?避暑?旅游圣地?
“智算”也是这样“想”的。这里你想要享有的一切,AI算力也需要:广阔的草原、凉爽的天气、绿色的电力,天然造就了它们堪为大规模智能算力安家落户的应许之地。
“早有蜻蜓立上头”。8月30日,阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”,并启动位于张北和乌兰察布的两座超级智算中心,“以公共云和专有云两种模式,为各类科研、公共服务和企业机构提供强大的智能计算服务”。
据介绍,这两座超级智算中心的总建设规模分别为12 EFLOPS和3 EFLOPS(FLOPS指每秒执行浮点数运算次数,1 EFLOPS=10的18次方Flops),超过了谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成为全球最大的智算中心。
规模很大,但这不是重点
在发布会上,阿里云智能全球销售总裁蔡英华分享称,关于数据与智能,阿里云有两个发现。
一是智能应用会加速数据的产生,而处理这些数据所需的智能算力,大概每3.5个月就会翻一番;
二是在算力供给总量提升的背后,智能算力增速远超通用算力——“十三五”期间,我国通用算力增长近3倍,智能算力增长近百倍;中国信通院2021年9月的统计数据显示,2020年,我国智能算力占总算力超四成(41.6%)。
“计算发展水平不仅是生产力,而且是产业革新驱动力。”蔡英华说,阿里巴巴坚持科技创新驱动商业发展,持续地运用AI和大数据在领域内进行有效实践。由此观之,阿里云启动如此大规模的智算中心,也不足为奇了。
但对于阿里云来说,智算中心的规模还不是重点。
不久前,阿里云和小鹏在乌兰察布打造了中国最大的自动驾驶智算中心“扶摇”, 算力规模达600PFLOPS,用于自动驾驶模型训练。
双方合作,对GPU资源进行细粒度切分、调度,将GPU资源虚拟化利用率提高3倍;支持更多人同时在线开发,效率提升10倍以上;同时在通讯层面、算力线性扩展、存储吞吐等方面协同优化。现在,小鹏自动驾驶核心模型的训练时长从7天缩短至1小时内,大幅提速近170倍。
另据蔡英华介绍,基于飞天智算平台和AI工具,阿里云可以用512张同步运行的GPU卡在10天内训练出具有可用水平的10万亿的模型(多模态大模型M6),其能耗仅为同等规模训练模型的10%左右。
没错,提高计算资源利用率、提升AI训练推理效率,这些是阿里云在推出智算平台过程中更为看重的。
阿里云大计算产品研发负责人曹政介绍说,阿里云的工程师将挖潜智算高性能、高效率的能力和“一云多芯”、绿色低碳等能力进行打磨,构成了飞天智算平台的算力底座“灵骏”,志在帮助用户实现更大、更快、更绿色的智能算力。
“一句话来形容,飞天智算平台提供基于阿里云‘磐久’基础设施的融合算力和大数据AI一体化平台的整体解决方案。”蔡英华说,阿里云希望和合作伙伴一起,在飞天智算平台上来构建更多的场景,用高效的生产工具推动生产力的释放。
打造科学计算的“安卓模式”
如此规模和优化的超级智算中心,阿里云在一开始就充分考虑了它对于科学计算需求的支撑。
在专门收集了科研人员对智算的需求之后,阿里云智能副总裁、行业解决方案销售部总经理霍嘉告诉《中国科学报》:“科学计算是智算非常核心的一个应用场景。”
术业有专攻。与物理、化学、生物、地理等学科的科研人员沟通过之后,霍嘉感受到,科学家迫切需要智算平台作为有力工具做更精深的研究,也注意到许多科研人员正在从原来的数值计算为主的科学任务,转向以人工神经网络、机器学习为主的科研任务,但他们普遍的痛点是“非计算机专业出身、对算力的使用有门槛”。
“科学家需要开箱即用的智能计算服务,这是真实的需求。”霍嘉对记者说,为此阿里云专门强化了飞天智算平台“一纵一横”两种能力,确保科研人员高效率驾驭智算。
他介绍说,“一横”是指阿里云提供的是多元融合的算力平台,底层兼容x86、ARM、GPU等芯片架构。面对不同计算需求,阿里云通过飞天云计算操作系统,把算力集群封装成为一台计算机,科研人员可以根据软件需求,接驳飞天智算的融合算力服务。
“一纵”是指,阿里提供一站式的“AI+大数据开发平台”——灵杰,这个开发平台囊括了各类工具、组件、软件包、算法实践等智算工程能力,可以一站式地为机构和开发者提供云原生的AI能力体系。
霍嘉告诉《中国科学报》:“有的开发者可能启动一次智能计算机,要使用12种以上的工具,这是非常可怕的,所以我们推出‘灵杰’来提升整体研发效率。”
北京大学化学与分子工程学院靶向药物研究,需要对自研算法提升计算效率——之前算法主要为单机单卡,且数据集缺乏有效管理导致数据读取效率低。
通过应用飞天智算解决方案,在集群中进行多机多卡计算,构建了超大规模蛋白-配体复合物动力学数据集,计算效率预计能提升100倍。计算效率的跃升,也让研究人员可以更专注于药物设计算法研发。
国家基因组科学数据中心副主任赵文明向《中国科学报》反馈,于科研人员而言,智算平台最重要的是应用场景,也就是“满足需求”,以及未来的软件社区。
不久前,中国科学院院士、北京科学智能研究院院长鄂维南在首届科学智能峰会也表达了类似愿望。他称,他曾在不同场合强调智能时代下科学研究的“安卓模式”,即把科学计算的流程抽象化、标准化,推动算力接口标准化,就是希望科学计算不要在底层硬件设备和不同模型和软件上耗费太多精力,把更多精力放在研究本身之上。
绿色是智算题中之义
阿里云此番启动的张北、乌兰察布智算中心规模巨大,其耗电量也是人们所关心的重点之一。
这也是阿里云密切关注的议题。蔡英华介绍说,阿里云正通过技术减排、能源结构优化、区域布局优化、供应链减碳计划、资源利用等手段,推动算力绿色化。
如在技术减排方面,阿里云通过液冷散热、智能运维等技术,致力于将智算中心的PUE值降到最低。通过应用浸没式液冷技术,阿里云位于杭州的仁和数据中心年均PUE为1.09,已成为我国最大的液冷集群和首座5A级绿色数据中心。
此外,据蔡英华介绍,阿里云的绿电交易和减碳排量均居国内互联网企业领先地位。据了解,2021年阿里云共交易清洁能源2.69亿千瓦时,折合减碳23万吨以上。
中科院计算所研究员张云泉在和记者谈及阿里云智算中心的启动时提到,目前智算平台的建设大多强调两点,一是算力服务,二是绿色计算。他表示,目前各大算力供应商在算力绿色化方面的努力有目共睹。
“当我们讲算力基础设施的时候,一定强调它是一个能耗中心。阿里承诺在2030年实现云计算的‘碳中和’,成为一朵‘绿色云’,在助力数字经济发展的同时,能够把单位算力的碳排放量降到最低。”
转自:“科学网”微信公众号
如有侵权,请联系本站删除!