如何选用合适的数据,所选数据不仅要跟研究选题紧密相关,还必须反映文章的质量?这是一直萦绕在许多研究者心中的疑问。近年来,国内外经济学研究开始出现微观转向,许多学者开始重视微观数据,甚至还着手构建自己的数据库,改变了以往使用与构建数据库的理念。
做过研究,或在毕业季准备做研究的童鞋应该都有过这样的体会,即:如果做实证研究的话,论文中应该选用什么数据?而所选的数据不但跟自己的选题有关,还会反映文章的质量。
因此,本文主要谈下实证研究中数据的获取和使用问题,给大家(特别是需要展开论文研究的各位童鞋)提供一些思路。当然,范围限制在经济学学科,偏微观应用计量领域。
微观数据库的使用及其意义
做中国的实证研究,一个重要的数据来源便是国内正在建设的几个微观数据库,包括但不限于:北大的CFPS、CHARLS,西财的CHFS、北卡的CHNS、北师大的CHIP、人大的CGSS等。目前国内的许多高校都在兴建类似于“社会科学调查中心”这样的机构,并希望依靠该平台建立自己的微观数据库,由此可见当下国内学界对微观数据的重视。大型微观数据库的意义在于:可研究的内容更广(变量多),更全面(涉及家庭方方面面),可做长期跟踪调查(更可靠的面板数据研究),且更能惠及学界(公开数据),等等。
而对于需要开展研究的初学者来说,微观数据库最为重要的地方或许在于:一、数据质量高,这为他们的研究提供了可靠的基础;二、签署协议后可免费使用,这种学界的正外部性让初学者感到轻松许多。
之前看过一个2011年左右的公开课,如果没听错的话,我记得视频里Raj Chetty说现在已经不兴使用Survey Data(调查数据),而是兴使用Administration Data(行政机构提供的数据?)。这里的Survey Data,指的就是上文提到的微观数据;而Administration Data,大概指的如税收数据这种由行政部门提供的数据。这里换个说法大家或许就不会感到太陌生了,Thomas Piketty 及其合作者Emmanuel Saez 利用美国政府提供的税收数据反推出美国的居民收入,由此研究收入不平等(Income Inequality)的议题。而根据所做的研究,Piketty 后来出版了大家都很熟悉的 Capital in the Twenty-First Century一书。这就是一个使用Administration Data进行研究的故事。
Chetty 这么说或许跟在美国学界的现状有关:在美国,申请官方的数据更为简单,且有法律支持;而美国的微观数据库,如NPL (The National Longitudinal Surveys),已经起步快40年了,因此建立在此之上的研究应该有很多。而国内的微观数据才刚刚起步,虽然也产生了许多研究,但还有许多社会状况有待于学界、民众和政府部门去了解。
另外值得一提的是,中国的国家统计局(NBS)提供的每10年一次的人口普查数据,以及两次人口普查之间的1%抽样数据。最近一次的人口普查数据为六普数据(2010年);而1%抽样数据目前执行过三次,分别在1978、1995和2005年。基于这些普查数据进行的研究也不少,如Qian Nancy(2008)著名那篇著名的Missing Women,当然,这篇文章还结合了地理数据。
自己构建数据库
除了使用现成的数据之外,就是自己构建数据库了。相较于上文提到的微观数据库,这种数据库显得较为小型,往往是因为一篇研究的需要而构建的数据库。数据来源往往为以下几个途径:调查问卷、历史文本、网络爬虫等。最后还会谈下一类较为特殊的数据,如地理、气象、环境数据,这类数据来自自然科学领域,往往作为配角和其他数据结合起来,帮助学者进行研究。
1
调查问卷
考虑财力人力等现实问题的话,学者通过小范围的调查问卷进行研究还是挺常见的。这方面的论文提多,这里提一篇个人觉得比较有意思的文章。陈钊、陆铭等人(2014)最近在CER上发表的关于“方言的回报”的研究,所使用的即是他们自己在上海地区收集的调查数据。
自己用调查问卷收集数据,最为重要的是保证数据的质量。问卷设计是一方面,而更为需要注意的另一处是数据的偏误问题。举个例子,最近临近期末,可以看到许多同学(也包括在国外读研究生的同学额)为了做项目在微信朋友圈上发调查问卷。这种收集数据的方式,如果不是研究相关议题(如特定于微信用户的研究),那么就可能存在很多很严重的问题。这种调查方式收集的数据存在偏误,即自我选择偏误(self-selection bias)的问题。首先,大部分使用微信的都是年轻人,所以这种你不可能在朋友圈做类似于“城市老年人消费观念”的调查;其次,最为可能帮你你填写问卷的人是近期跟你玩得比较好的朋友,所以这种方式收集的数据内容甚至不能用来代表你朋友的普遍状况。比如,有一位女同学在收集了几份问卷信息之后,在朋友圈抱怨说,“基本都是女性在填写问卷,来几位男同胞啊。”如果说这种一开始就赤果果的偏差都没有引起她的注意,那么只能说她没有一点儿“随机抽样”的意识。而且,要知道,即使是最后填写问卷的男女比例达到了1:1,这样收集上来的数据也是“然并卵”的质量。
不符合随机原则收集的调查数据可能完全不具备代表性,但并不是说就不能用,这跟你的研究内容有关。比如说,有一个域名为 zuobiao.me 的网站,为国人提供“中国政治坐标系测试”,这一测试在网民之间流传很广。后来这个网站被墙,于是站长觉得被墙之后收集的数据偏误会很大(BTW,站长是数学系的博士),因为能翻墙过来填写问卷的人跟无法翻墙的人之间的政治观念差异可能会很不一样,因此他决定公开该网站这几年收集的数据。根据这一数据,MIT的徐轶青等人(2015)和复旦的兰小欢(2015)各写了一篇文章。其实该网站被墙之前,收集的问卷数据也是有偏的,因为会做该测试的人,往往可能是对政治较为感兴趣的年轻网民,而不是全体国人。但是上面提到的两篇研究,研究的内容正是局限于对政治议题较为感兴趣且偏向于年轻的网友,因此即使数据有偏,但还是可以用在研究上。
另外,“自我选择偏误”不单存在于数据收集上,还可能存在于进行实证研究时数据选取上。比如你感兴趣的是某一地区的全部人员,但是数据库提供的仅仅是劳动力市场上人员的调查数据;又比如你感兴趣的研究内容是劳动力的受教育程度对其收入的影响,但是你会发现受教育程度较高的这部分人,往往也是家庭背景较好的一类人,而这一类人的高收入可能是由于家庭背景导致的,而如何识别教育回报,也就是一个解决“自我选择偏误”的过程。对此感兴趣的同学可以看下Heckman(1979)的经典大作。
2
历史文本
从历史文本中整理数据是另一种收集数据的方式,我想随着国内经济史研究的方兴未艾,通过历史文本整理数据的研究可能会越来越多。即将在Econometrica刊发的Elite Recruitment and Political Stability一文,探讨了清朝废除科举制对政治稳定的影响,使用的即是整理自文本的历史数据:1900-1906年间清朝262个府的面板数据。关于这篇文章的研究内容,可参见政见的这篇《废除科举加速清朝灭亡?》。而这篇文章的两位作者,也是政经和经济史领域的两颗学术新星,分别是目前在港中文的白营和UCSD的贾瑞雪。
再举一些经济史方面的研究,如白营和贾瑞雪之前分别写的一些文章。白营和港科大的Prof. Kung 合作的两篇文章(2011,2014),分别研究了气候变化对游牧民族入侵中原的影响,和新教在中国的知识传播对经济增长的影响。之前8月份第一次去青岛,我想到中国殖民地这方面的经济史研究选题,后来发现贾瑞雪做过一篇相关研究,即是这篇发在RES的 The Legacies of Forced Freedom。
《量化历史研究》中颜色老师的那篇《从经济学的角度研究经济史的一点体会》,提到了经济史的一类很适合的研究内容为“遗产”研究(Legacy Research)。我原先不太明白什么叫做“遗产研究”,后来看到贾瑞雪这篇 The Legacies of Forced Freedom的研究内容,我才大概明白为什么说“遗产”研究是一类较为适合的经济史研究。其实很简单,从现实层面考虑,综合”历史数据的难以获取“和“当下经济数据的可获取性”两个现实,由此可推断经济史中一个可行的研究内容就是,研究历史上发生的事情对当下社会经济状况的影响,这即是所谓的“遗产”研究。
这类的研究有许多,这里推荐Harvard的Melissa Dell的两篇文章,一篇是颜色老师在书中推荐的,发在Econometrica上的 The persistent effects of Peru’s mining mita ; 另一篇则是她的工作论文:State Capacity, Local Governance, and Economic Development in Vietnam。这两篇研究都是使用RDD,研究的都是历史上的某一事件对当下的影响,因此使用的数据为2000年之后的家户调查数据:前者使用的数据包括2001年的秘鲁家户调查数据(Peruvian National Household Survey ),后者使用的数据包括2002-2012年的越南家户调查数据(Vietnam Household Living Standards Survey)。
3
网络爬虫
现在基于网络数据进行的实证研究也不少。一方面,网络数据虽然本身就是以电脑可直接处理的形式存在,但是该形式并不一定可以直接用做研究,也需要对其进行处理。另一方面,网络数据的优点之一是其涉及的样本量往往会比较大,因为它可能是用户自己提供的数据,如微博信息、婚恋网站的匹配数据等;也可能是定期更新的数据,如财经数据、电影票房信息等。网络数据经常需要用爬虫来获取,但这并不意味着研究人员本身需要具备爬虫技术,目前雇佣专业人员用爬虫获取数据的情况也是挺常见的。
网络数据这方面的研究,上面提到的“微博”、“婚恋网站”、“财经数据”、“票房信息”四个方面都有相关的研究,其中有些研究会结合其他的一些数据,如等下会谈到的环境数据;当然,除此之外利用网络数据进行的研究有很多,也包括研究学界本身,如利用学科的期刊数据来进行研究。我对这方面的关注较少,因此除了上文提到的徐轶青等人(2015)和兰小欢(2015)的两篇文章,这里没有其他推荐。关于网络数据的偏误问题,也见上文内容。
4
请自然科学数据
因为我不知道该如何给地理数据、气象数据、环境数据、甚至外太空获取的灯光数据等数据归类,所以这里我就统一把他们归为自然科学领域的数据。
通常,经济学家会将这类数据当做是辅助工具,结合自己的主要数据来进行研究。前面提到的:Qian(2008)的Missing Women 和Dell(2010)的 The persistent effects of Peru’s mining mita都是结合了地理方面的数据。后者是利用地理环境构建了一个RDD,也有学者用这种方法研究中国问题,即陈玉宇和李宏彬(2013)等人利用中国政府在淮河两侧采取供暖政策不同,构造了一个地理上的RDD,由此得出长期暴露在空气污染中的居民的平均预期寿命会缩短3年。
用气象数据进行的研究,如之前提到的Bai和Kung(2011)合作的文章:气候变化对游牧民族入侵中原的影响。而随着中国环境问题的加剧,特别是雾霾问题,用环境数据所进行的研究在未来几年应该都会陆续出现。如空气污染是否会影响人们的消费行为,是否会影响人们的身体健康和心理感受(如满意度)等。
用外太空获取的灯光数据进行政治经济学研究,大家应该都有所耳闻。对于一些经济数据较为难以获取,且官方提供的数据不太可靠的地区(比如非洲),用外太空获取的地区的灯光数据当做是地区经济发展状况的代理变量,由此来进行相应的研究。这方面的研究我也没有细看过文章,所以这边也没有推荐。
深入讨论
上面提到了几个获取数据的途径,但并不是说实证研究只能通过这几个途径获取数据。从某种程度上来说,实证研究的数据获取可以是一个开脑洞的过程,比如外太空的灯光数据;而实证研究过程中将不同的数据结合起来,也可以是一个开脑洞的过程,就类似于寻找准自然实验的过程。这就所谓的,“大处着眼”。
而在获取了数据之后,更为重要的是如何处理这些数据。数据本身的状况就形态各异,因此需要研究者对其进行细致的识别,这样才能更好(或说更科学)地使用这些数据。实证研究中很关键的一点是识别策略,因为识别涉及到该研究的因果推断,因此只有制定了好的识别策略学者才能做出好的实证研究。这就是所谓的,“小处着手”。
最后,我们抛开数据处理的操作层面,来探讨下数据的本质。记得Angrist等人合著的《基本无害的计量经济学》中曾这样描述过RDD
“断点回归式识别策略基于如下思想:在高度依赖规则而运行的世界中,有些规则的出现是十分随意,这种随意性为我们提供了性质良好的实验。”
而数据的产生也是如此,如果说社会存在某些规律(自然的或者是人为的),那么在日常生活中它就可能反应在人类产生的各种资料之中,这些资料可以是历史文本、微博信息、大气质量等信息,实证研究需要做的就是,使用科学的研究设计(识别策略、计量框架等)来对这些被称作为“数据”的资料进行研究,由此重新挖掘出数据中蕴含着的社会奥秘。
本文来源:经管学苑
转自:“学术必看”微信公众号
如有侵权,请联系本站删除!