下载并处理NOAA的气象数据集

2022/7/20 9:05:55　阅读：1684　发布者：

由于国内CMA的气象数据集下载权限比较大，即使是科研账户也下载不了，如果要使用五六年十的数据的话，那简直可以下载到猴年马月了，如果用其他途径的话又特别贵。不过好在NOAA服务器上面存储得有一些数据，全球1.3万个站点的，中国2020的有410个左右，时间可以追溯到上世纪初，但那个时候的站点记录非常非常非常稀少，比如1942年这个就一个站点。

OK，那么就来介绍一些怎么下载这些数据以及怎么处理吧。

下载的话需要使用FileZllia登录到noaa的远程服务器，地址是：ftp.ncdc.noaa.gov，端口是21，不需要用户名和密码。链接成功之后就是如下图所示，左边是本地电脑，右边就是远程服务器了，可以直接单个或多个文件一次下载。

下载后得到zip，然后解压到对应的文件夹就是这个样子了，里面还包括了一层文件夹，可以考虑使用os.walk去读取其中的TXT纯文本。

OK，数据下载到之后就可以用Python来解析了，目标正确读取数据，设置时间索引，设置正确的列名，设置数据正确的范围，也就是除以缩放因子SCALE FACTOR。因为原始的TXT数据中的8个字段的数据是乘以10的，比如气温，在TXT中显示的就是100多。数据是比较规范的，用Python可以轻松解析出来。

我这里仅仅测试了2020年的某一个站点的数据，如果因为实际需要可以遍历所有的站点来提取。

读取数据，由于原始的TXT没有title，所以为了避免漏掉第一行数据，这里就设置header=None，其他的字段就按NOAA的doc来设置，比如TEM表示气温，TED表示露点温度，PRS表示气压等等，同时解析年月日和小时成时间戳并当作索引，最后除以缩放因子10(除了WD不用)完成。

剩下的就按自己的实际需求去处理了，不论是单个站点还是多个站点都是很EASY的了。

但是这个数据看了一下doc，说是质量控制QC可能有点问题，如果没有替代的话，还是得用这个数据，这个2020年的也才410个站点左右，之前处理的是2412个，差距还是挺大的。

转自：happy科研

如有侵权，请联系本站删除！

上一篇： Graphpad中如何统一图片尺寸
下一篇： 临床试验数据管理有哪些重要文件？

投稿问答最小化 关闭

下载并处理NOAA的气象数据集

本文评论

暂无相应记录！

科研工具热门文章

本站推荐

最近更新

投稿问答最小化 关闭

下载并处理NOAA的气象数据集

本文评论

暂无相应记录！

科研工具热门文章

本站推荐

最近更新

投稿问答最小化关闭