投稿问答最小化  关闭

高端访谈 | 来看看大神是如何将人工智能方法用于气象研究的吧!

2022/3/31 11:28:40  阅读:193 发布者:chichi77

创新驱动发展,数据的价值基于人的创造力。和鲸科技《对话数智》栏目联动多领域处于不同人生、事业阶段的科研人员,彼此探讨、交流对于数据科学研究课题、工具应用及未来趋势的一些思考。

首期我们邀请了和鲸社区开源创作者、ModelWhale 2+ 深度用户刘旗洋。在气象大数据领域上下求索,这位新生代研究者走出了一条有迹可循的道路。

受邀人丨刘旗洋

华东师范大学 地理科学、气象学

和鲸社区创作者(账号名:lqy

ModelWhale 2+ 用户

采访人丨童毅炜

清华大学 数理基础科学、社会学

ModelWhale 产品经理

优势与争议

关于气象+AI的思考

随着大数据成为全球学术研究的新热点,数据驱动的研究范式为知识生产提供了新的模式。从宏观角度看,气象领域具有多源多分辨率的时空观测数据以及多模式多方案的预测数据,为人工智能技术发展提供了数据基础。天气和气候预测也趋向更精细化、智能化的方向发展,越来越多的科研从业人员开始关注 AI 在气象领域的应用。

虽然 AI 技术有很强的学习能力和较快的推理速度,但缺少一定的可解释性,如何将大气理论与 AI 模型结合去解决气象难点还需持续探索,或许我们能从刘旗洋这位年轻研究者的经历中略知一二。

刘旗洋与童毅炜在进行交谈

左:刘旗洋  右:童毅炜

童毅炜:气象数值模式和人工智能算法作为当前气象研究的两种不同范式,你对他们的关系有什么看法?

刘旗洋:就我个人而言,我认为二者虽然出发点不同,但可以形成互补,并不是完全对立的。气象数值模式是基于复杂的大气运动过程进行天气预报和模拟,而人工智能算法是基于大数据的驱动,能捕捉气象数据的时空特征以及非线性关系。我和我的导师在利用这两个不同工具分别进行研究的时候发现,她可以通过不同物理参数化方案比较找到更优的气象数值模拟方案,而我可以依靠 AI 算法基于模式输出进行后处理,更进一步订正模式模拟的误差。虽然我们的路径不同,但最终目的是相同的。更有意思的是,我们从基于多方案的30年长期气温和降水气候模式评估中发现,模拟误差特征与模拟实验的参数化方案是密切相关的,利用 AI 算法去诊断误差来源也能够为模式内部过程的改进提供重要的参考依据。

童毅炜:二者进行比较的话,人工智能作为新的研究范式,你觉得它的优势在哪里?

刘旗洋:就像刚才说的,人工智能的引入在模式订正这方面会有很大优势,能显著提高对气温、降水等气象要素的预报能力。此外,AI 技术也可以更好地去追踪天气过程的发展,之前我通过图像识别的 AI 技术基于卫星云图进行台风定位,从而更实时、快速、智能地追踪了台风。一方面能够更精细地刻画台风的发展过程,另一方面也能为模式提供更优的初始场,有助于提高模式对台风的预报能力。

台风活动的轨迹检测

图源链接

童毅炜:目前学界对于人工智能还是存在一定争议性,因为觉得人工智能缺乏物理过程,从动力学机制上来说没有办法进行解释。关于人工智能的可解释性的问题,你是如何看待的?

刘旗洋:人工智能可以告诉我们什么知识或经验,这也是我一直在思考和学习的问题。人工智能可以针对某个问题实现较高的预测精度,但是可解释性相对薄弱,对于物理过程的描述接近黑箱状态。不过近年来,有更多论文在模型的可解释性、因果推断上取得了一定的突破,我们可以通过 SHAP 值(基于博弈论发展而来)分析不同变量的重要性以及神经网络中的权重。或许在未来,会发展具有可解释性或因果推断的神经网络模型,让 AI 模型不仅由数据驱动,也可以由知识驱动,让 AI 模型不再是黑箱过程,而是可知、可控的。

大数据时代地球科学所面临的挑战

图源:Reichstein et al., 2019

基于 ModelWhale

实现研究复现全链路

科研场景的复杂性伴随着一系列影响研究者效率的基础设施问题,简化工程复杂度以契合科研工作者的工程力一直是 ModelWhale 的产品设计理念。作为使用了 ModelWhale 两年多的深度用户,同时也是气象科研工作一线的生产人员,刘旗洋结合着自己的研究经历和实际应用场景对 ModelWhale 各项功能的使用体验进行了反馈。

童毅炜:ModelWhale 在进行产品设计的时候考虑了很多问题,比如说我们觉得数据科学其实和其他科学很不一样,它对于数据、环境、代码都有要求,而一些底层的基础性设置又可能是研究者们不擅长的,会耗费研究者大量的时间,你有碰到过类似的问题吗?

刘旗洋:确实是这样,刚才提到数据、环境和代码,首先是数据问题。随着气象模式的时空分辨率提高,气象数据存储量也不断变大,对于TB级别的数据的存储和交接有较大麻烦。使用网盘存储需要下载后才能计算,时间成本比较高;使用移动硬盘存储可能出现机械故障,也不太方便;云计算平台可以对公开数据集进行在线运算,但对于本地数据的支持比较有限,无法满足分析需求。如果能把自定义数据集的存储和运算在一个平台上完成,对我们来说将是一个非常有利的工具。

童毅炜:你使用 ModelWhale 也有很长一段时间了,在这种情况下,我相信它一定是多少解决了你的一些问题的。

刘旗洋:是的,在 ModelWhale 上我就可以上传本地的数据集并且直接在线运算分析,并且即使没有把移动硬盘带在身边,只要有一台电脑甚至一台平板,也能随时随地即开即用,数据、算力和模型都可以在 ModelWhale 一个平台上实现,打通了数据科学的闭环。虽然单次研究涉及到的数据量较大,可能有2TB左右,但我一般是选取具有代表性的数据进行上传,实现数据的初步探索和模型的初步搭建,随后通过循环遍历应用于全部数据。

在大数据研究落地的过程中,数据接入是必不可少的关键环节,规范的数据也能大大减少研究者后续维护和使用的时间成本,因此大数据的接入调用一直是 ModelWhale 想要迭代和优化的核心方向。

就在访谈后的第四天,310日,ModelWhale 发布的新版本推出了"NAS数据接入"功能,供用户在平台上实现对超大数据的调用分析。此后,用户除了可以在 ModelWhale 使用数据连接调取存放在数据库、对象储存的数据外,还可以通过创建 NAS 空间调取 NAS 中的各类数据。ModelWhale 成熟的信息安全技术为研究数据的管理、共享、挂载、分析保驾护航。

ModelWhale 数据接入界面

除了数据管理外,刘旗洋提出,环境管理也是日常研究中十分影响研究效率的棘手问题。在高校实验室,常见的情况是研究团队共同维护一个分析环境,环境变量难以灵活调整,对于使用不同编程语言、不同版本模块存在一定挑战。

童毅炜:说到环境,其实我们很关注科学研究的可复现性,我们觉得即使有了数据、有了代码也并不意味着能完成复现的流程,环境配置在其中也是不可或缺的一环。

刘旗洋:是的,如果环境配置有误的话也会导致代码在运行过程中遇到错误,而且我导师非常强调研究成果复现,因为你只有把别人的实现了,才有可能在他的基础上再往前走一步。所以我觉得ModelWhale 自定义镜像这个功能就特别好,我可以基于通用镜像去添加所需的工具包,平台编译后就能拥有自己的定制化镜像了,而且这个镜像还能共享给他人进行使用。

童毅炜:关于自定义镜像,这个功能跟你还有一定渊源,不知道你记不记得。

刘旗洋:记得记得,之前我想在官方镜像中添加一个自己想要的模块,于是就在群里反馈了一下,没想到 ModelWhale 很快上线了自定义镜像功能。我可以添加、修改多个模块和版本,并且这个自定义镜像是支持共享的,社区用户都可以直接使用我发布的镜像,不需要再进行额外配置了,这给环境管理和成果复现带来了很大便利。

童毅炜:确实,因为我们其实非常关心实际的应用人员在使用我们这个产品时的感受,当你们的一些需求如果评估下来是合理的话,产品团队可能就会比较快地去进行对应的迭代工作。当然并不是说用户要什么我们就去满足什么,我们会更深地去思考用户为什么提这样的需求,他真实的需求又是什么。事实上和鲸之所以既有 ModelWhale 这样一个工具,又有一个和鲸社区的原因,就是我们希望这种免费工具+社区的架构能够使得尽可能多的人去使用我们的产品。在使用的过程中,他们可能会有更多真实的反馈,这些真实的反馈才是我们后续产品去做迭代的一些方向。所以后面也要麻烦大家能不断提出更多意见,我们也可能会提供一些意料之外的解决方案。

ModelWhale 自定义镜像界面

谈及最开始养成使用 ModelWhale 的习惯,刘旗洋说是源于他对代码进行整理和总结的需求。借助和鲸社区,他给项目打上对应的标签并划分至不同专栏,每个阶段的学习研究成果都清晰可见。

刘旗洋:通常我会把科研任务分为多个阶段,每个阶段的沉淀其实都很重要,不然到了下个阶段还要回过来重新去找代码、找数据,就会很麻烦。而且后来我在参加气象数据竞赛的时候,深刻感受到甚至每个模型的版本保存也是很重要的,因为并不能保证每次的模型调试结构都有优化,有时候反而还会调差了,如果之前没保存,在本地就会被直接覆盖掉,这是个很致命的问题。

童毅炜:ModelWhale 其实是提供了一个极简的版本管理方案,当然它也包括了版本比对、内容替换、合并版本等等这些比较基础的使用场景,但是我们曾经有考虑过要不要把这套版本管理做的更复杂一些,增加一些其他功能,你用下来的感觉如何呢?

刘旗洋:我之前也有用过类似 Git 这样的版本管理工具,虽然功能很多,但仍需要熟悉操作指定,而且我可能只用到了其中的一小部分。其实对我而言,我更关心的是我第一次代码是什么样的,我每次又对它做了什么改进。在 ModelWhale 上我只要点一下生成版本,然后填上备注信息,就能轻松实现我对版本管理的需求了,我觉得是非常方便的。

童毅炜:其实你分享在社区里面的尚未最终完善的项目,在我们看来比你单纯分享已经写的很好的项目更有价值,因为大家在复现你的项目的时候,可以从你的历史版本中知道,你是怎么进行优化的,是怎么从一个生涩的研究人员到可以非常熟练地去完成代码工作的。

刘旗洋:现在回顾感觉,一方面是多学习别人写的代码,另一方面也是受益于编程平台,采用Jupyter Notebook 进行编程能更好地传递研究思路,修改起来也很方便。我有时候会去看自己一些早期的项目,发现之前会创建很多列表、写多层循环,以实现效果为目标,但随着数据处理量的增大,现在我也更关注代码效率,从函数调用和运算处理上进行优化。

刘旗洋发布的项目多个版本示例

童毅炜:刚才我们说了数据、说了环境、说了代码,正好对应着研究复现的三个要素,很高兴 ModelWhale 的云端基础设施能切实地帮助你们把这部分工作做的更流畅自然了。不知道你有没有听说过可复现危机这个事情,前段时间科学界有人对于在 NatureScience 这种非常顶级的期刊上发的社会科学文献尝试去做更大规模的实验,去复现它的结果,却发现大概只有60%-70%的文章可以得到对应的结果,你是怎么看的呢?

刘旗洋:我个人认为成果复现是检验研究成果可靠性和科学性的关键过程,研究者如果愿意将成果复现的关键过程公开分享,可以有助于我们更好地理解数据处理细节和模型构建过程,很大程度上降低了研究人员复现难度,也节省了很多时间。在我自己的研究过程中,我也会对论文中的每一张图的进行复现,也是对我自己研究工作的一次重要检验,同时也让研究成果更具有说服力。

3600+关注者

从受益到授益的价值传递

2020年,刘旗洋在和鲸社区发布了他的第一个项目《基于数值模式资料和站点观测数据绘制相对湿度分布图》;两年后,截止至 20223月,“lqy” 已经是气象专区拥有着3600多名用户关注的创作者。

和鲸社区刘旗洋个人主页

童毅炜:你是在我们社区被关注的数量最多的人之一,到现在大概有3600多个人关注你,浏览、fork你的项目。3000这个数量在某些比较生活化的平台上不多,但是在我们这个非常垂直的数据科学气象领域里面,这是一个非常庞大的数字。当你再回看的时候,心里是什么感受?

刘旗洋:完全没有想到会引起这么多的关注,特别的惊讶。最初我只是想将自己的项目进行总结整理,借助 ModelWhale 进行项目管理,同时在和鲸社区 fork 一些 Workshop 和训练营中的教学项目,学习、积累建立机器学习和 AI 模型的经验,这些对我参加数学建模和数据竞赛都有很大帮助。所以可以说最早的时候,我是社区的受益者。现在这么多的关注量也给了我很大动力,感受到自己的总结整理是有价值的。

童毅炜:其实你的成长过程完全满足了我们对于社区的期待,我们希望大家能从这里汲取到需要的知识,也能乐于将自己的研究成果进行分享。那你对于未来有什么规划呢?

刘旗洋:在气象方面,我希望能继续深造,有机会的话考虑读博,更好地利用 AI 技术和理论去解决气象难点问题。在社区里我想要做出更多有特色的项目,把重点放在原创性和创新性上。

童毅炜:非常期待,不过社区里也有科研属性相对比较重的投稿,虽然含金量高,推荐权重高,但浏览量却比不上那些入门的作品。如果发布了这些以后你掉粉了怎么办?

刘旗洋:我觉得用户的关注只是一个很小的方面,成为创作者并不是为了涨粉,对我而言,我更愿意分享学习中的收获和感悟,例如论文成果复现,可能只能帮助到十几个人,但我觉得做好这件事还是很有必要的。

刘旗洋区域综合野外考察留念

采访结束后,我们和刘旗洋一起吃了饭,没有了镜头的束缚,他显然更加自如了一些,热忱地同我们讲述他的学业、科研、近期比赛经历,还有他对未来的思考。最近我在做西北太平洋台风气候特征的模拟分析,发现台风路径和强度的模拟仍有不确定性,倒是有点像我现在的状态。他害羞地笑了笑,不过我没考虑那么多,只希望能继续不断地去挖掘气象大数据中的知识和价值。

餐厅没有打光灯,但他的眼睛亮亮的。

编者记

科学的探索没有上限,开放、分享可能是共同进步最快的方式。

我们始终期待更多数据科学研究者来到和鲸社区分享研究成果,并在互动交流、复现学习中获得给予和成长的快乐。

同时,也欢迎使用 ModelWhale 数据科学协同平台,在线进行分析建模、研究探索。

如有侵权,请联系本站删除!

  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com