下载并处理NOAA的气象数据集
2022/7/20 9:05:55 阅读:1190 发布者:
由于国内CMA的气象数据集下载权限比较大,即使是科研账户也下载不了,如果要使用五六年十的数据的话,那简直可以下载到猴年马月了,如果用其他途径的话又特别贵。不过好在NOAA服务器上面存储得有一些数据,全球1.3万个站点的,中国2020的有410个左右,时间可以追溯到上世纪初,但那个时候的站点记录非常非常非常稀少,比如1942年这个就一个站点。
OK,那么就来介绍一些怎么下载这些数据以及怎么处理吧。
下载的话需要使用FileZllia登录到noaa的远程服务器,地址是:ftp.ncdc.noaa.gov,端口是21,不需要用户名和密码。链接成功之后就是如下图所示,左边是本地电脑,右边就是远程服务器了,可以直接单个或多个文件一次下载。
下载后得到zip,然后解压到对应的文件夹就是这个样子了,里面还包括了一层文件夹,可以考虑使用os.walk去读取其中的TXT纯文本。
OK,数据下载到之后就可以用Python来解析了,目标正确读取数据,设置时间索引,设置正确的列名,设置数据正确的范围,也就是除以缩放因子SCALE FACTOR。因为原始的TXT数据中的8个字段的数据是乘以10的,比如气温,在TXT中显示的就是100多。数据是比较规范的,用Python可以轻松解析出来。
我这里仅仅测试了2020年的某一个站点的数据,如果因为实际需要可以遍历所有的站点来提取。
读取数据,由于原始的TXT没有title,所以为了避免漏掉第一行数据,这里就设置header=None,其他的字段就按NOAA的doc来设置,比如TEM表示气温,TED表示露点温度,PRS表示气压等等,同时解析年月日和小时成时间戳并当作索引,最后除以缩放因子10(除了WD不用)完成。
剩下的就按自己的实际需求去处理了,不论是单个站点还是多个站点都是很EASY的了。
但是这个数据看了一下doc,说是质量控制QC可能有点问题,如果没有替代的话,还是得用这个数据,这个2020年的也才410个站点左右,之前处理的是2412个,差距还是挺大的。
转自:happy科研
如有侵权,请联系本站删除!