香樟青苗简报 | 薛原:Stata编程与网络爬虫
2023/8/3 10:35:31 阅读:35 发布者:
讲者介绍:
薛原,华中科技大学管理学院博士研究生,香港中文大学(深圳)经管学院访问学生,爬虫俱乐部成员,擅长Stata、Python编程技术。参与编写了cngcode、cnaddress、t2docx、reg2docx、cnintraday、sum2docx等十余个热门Stata命令。能够实现中文地址与经纬度之间的转换、实证结果输出等多个功能。其中多个命令曾进入ssc最热门的前十大命令。从事公司金融以及资产定价方向的研究,已有成果发表在Stata Journal,《金融研究》。
讲座回顾:
讲座的前半部分,薛老师分别从“什么是网络爬虫?”、“为什么要用Stata做爬虫?”、“使用Stata做网络爬虫的步骤”、“使用Stata做网络爬虫必备技能”等几个方面带着香樟青苗学员们渐入佳境,逐步探索Stata网络爬虫的奥妙。
什么是网络爬虫?
薛老师从网络爬虫的定义讲起,并简单介绍了在他的研究中使用爬虫获取的新数据。接下来依次说明了使用Stata做爬虫的优势、步骤以及所需的技能。
网络爬虫案例:
讲座的后半部分,薛老师以案例的形式给学员演示如何用Stata进行爬虫。第一个案例是对某财经网站中的上市公司高管任职信息内容的抓取。薛老师详细介绍了源代码获取、读入、乱码处理命令以及不同处理方式的比较、字符串函数和正则表达式等文本信息处理方式、局部宏与循环的使用等爬虫编程所需的技能,以及借助cnstock得到各上市公司名称及代码,利用循环命令进行多家公司数据抓取与合并。爬取深交所上市公司信息披露考评结果讲解涉及到了使用抓包找到所需数据的真实链接以及json数据的处理,其关键在于灵活运用split、sxpose命令以及正则表达式。巨潮资讯网预约披露时间的案例则主要给大家说明了POST请求方式的处理步骤。
结语
此次讲座中薛原清晰详细地向学员讲解了操作技巧,向大家介绍了易发生报错的原因及背后的原理。学员们根据老师讲解的步骤边听课边操作,课后,薛老师也让助教收集学员们存在的疑惑,并给出恰当的解决方案。感谢主讲人薛原老师不辞辛劳为青苗暑期课程志愿授课!本次课程不仅推进了实例的教学,也为同学们未来在STATA的继续学习使用上打下了坚实的基础。
供稿人:第六届“香樟青苗计划”暑期学校学员,中国社会科学院大学丁雪怡
转自:“香樟经济学术圈”微信公众号
如有侵权,请联系本站删除!