万事开头难,参加过美赛或者国赛的同学可能都有体会:最难的不是没有思路,而是找不到数据。如果找不到合适或者充足的数据,模型要么无法建立、要么由于没有充足的数据验证,导致结果非常差,最惨的情况是只能“语文建模”或者“美术建模”。查找数据为什么这么难?
难点1:不知道如何查找数据
这种情况常出现于没有找准题目关键词,或者初期做题思路混乱。拿到赛题后先分析问题,查找问题求解需要的数据,检索时可以搜索问题背景或者方法的关键词。
难点2:网站无法访问
这种情况很常见,解决方法是多刷新几次或者科学上网。
难点3:下载问题多
由于大多数数据来源于外网,因此下载速度非常慢,一些特别大的文件在下载进度到99.99%就停止了,接着显示下载失败得重新下载。还有些网站显示无权限下载或者要注册账号或会员,必要情况下需要一定的经济支出。有些论文里面的数据还得向作者发邮件索要,一方面如果作者发现索要者是用数据用于数学建模竞赛,或者短时间内被大量“骚扰”,不一定会提供帮助。另一方面,如果作者回复不及时,会错过最佳时间!要知道美赛一共就4天时间,一般来说最晚在第一天晚上就要完成数据搜集和预处理工作,第一道工序不能完成,会拖垮整体进度。
难点4:格式不匹配
我们常见的数据集是表格或者图片,但对于一些专业软件,可能是其它数据格式,有些我们甚至没见过。更难的是某些数据要专门的软件才能打开,如果不幸遇见了这些数据,就不得不在短时间内学习使用陌生软件。
针对这些难点,我们可以从以下几个渠道查找数据:
01
统计官方数据
官方数据具有全面性和权威性,而且有些数据以柱状图、饼状图的形式展现。但同时数据过多、过于全面,反而会在选取所需数据的时候带来麻烦。
注意:访问这些网站最好使用IE浏览器。
统计数据:https://data.stats.gov.cn/
统计局:http://www.stats.gov.cn/
自然资源部:http://www.mnr.gov.cn/sj/
央行:
http://www.pbc.gov.cn/diaochatongjisi/116219/index.html
工信部:http://www.miit.gov.cn/gxsj/index.html
交通运输部:https://www.mot.gov.cn/shuju/
商务部:
http://www.mofcom.gov.cn/article/tongjiziliao/
其他国家部门网站大多都有数据分页,如果需要可另行查找
awesome-public-datasets
这是GitHub上的一个项目,包含了经济、地理、能源、教育等所有你能想到的领域的数据,其中大部分是免费的。
https://github.com/awesomedata/awesome-public-datasetsgithub.com
02
地理数据
公路分布、水文、温度变化、自然灾害数据(如地震、海啸、台风等)、地图等地理数据是美赛的常客,可以从以下网站中获取:
Free GIS Data:http://freegisdata.rtwilson.com
Earthdata:http://earthdata.nasa.gov
美国交通统计局:http://www.bts.gov
转自:科研交流
如有侵权,请联系本站删除!