投稿问答最小化  关闭

万维书刊APP下载

国赛大神揭秘!原来他们是这样找数据的!

2022/7/5 10:18:43  阅读:360 发布者:

万事开头难,参加过美赛或者国赛的同学可能都有体会:最难的不是没有思路,而是找不到数据。如果找不到合适或者充足的数据,模型要么无法建立、要么由于没有充足的数据验证,导致结果非常差,最惨的情况是只能“语文建模”或者“美术建模”。查找数据为什么这么难?

难点1:不知道如何查找数据

这种情况常出现于没有找准题目关键词,或者初期做题思路混乱。拿到赛题后先分析问题,查找问题求解需要的数据,检索时可以搜索问题背景或者方法的关键词。

难点2:网站无法访问

这种情况很常见,解决方法是多刷新几次或者科学上网。

难点3:下载问题多

由于大多数数据来源于外网,因此下载速度非常慢,一些特别大的文件在下载进度到99.99%就停止了,接着显示下载失败得重新下载。还有些网站显示无权限下载或者要注册账号或会员,必要情况下需要一定的经济支出。有些论文里面的数据还得向作者发邮件索要,一方面如果作者发现索要者是用数据用于数学建模竞赛,或者短时间内被大量“骚扰”,不一定会提供帮助。另一方面,如果作者回复不及时,会错过最佳时间!要知道美赛一共就4天时间,一般来说最晚在第一天晚上就要完成数据搜集和预处理工作,第一道工序不能完成,会拖垮整体进度。

难点4:格式不匹配

我们常见的数据集是表格或者图片,但对于一些专业软件,可能是其它数据格式,有些我们甚至没见过。更难的是某些数据要专门的软件才能打开,如果不幸遇见了这些数据,就不得不在短时间内学习使用陌生软件。

针对这些难点,我们可以从以下几个渠道查找数据:

01

统计官方数据

官方数据具有全面性和权威性,而且有些数据以柱状图、饼状图的形式展现。但同时数据过多、过于全面,反而会在选取所需数据的时候带来麻烦。

注意:访问这些网站最好使用IE浏览器。

统计数据:https://data.stats.gov.cn/

统计局:http://www.stats.gov.cn/

自然资源部:http://www.mnr.gov.cn/sj/

央行:

http://www.pbc.gov.cn/diaochatongjisi/116219/index.html

工信部:http://www.miit.gov.cn/gxsj/index.html

交通运输部:https://www.mot.gov.cn/shuju/

商务部:

http://www.mofcom.gov.cn/article/tongjiziliao/

其他国家部门网站大多都有数据分页,如果需要可另行查找

awesome-public-datasets

这是GitHub上的一个项目,包含了经济、地理、能源、教育等所有你能想到的领域的数据,其中大部分是免费的。

https://github.com/awesomedata/awesome-public-datasetsgithub.com

02

地理数据

公路分布、水文、温度变化、自然灾害数据(如地震、海啸、台风等)、地图等地理数据是美赛的常客,可以从以下网站中获取:

Free GIS Datahttp://freegisdata.rtwilson.com

Earthdatahttp://earthdata.nasa.gov

美国交通统计局:http://www.bts.gov

转自:科研交流

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com