投稿问答最小化  关闭

万维书刊APP下载

写论文避不开的内生性问题

2024/9/23 9:54:27  阅读:22 发布者:

内生性问题的讨论,是我们实证研究中不得不开放讨论的话题之一。针对如何解决这一问题,我们首先需要了解产生这一问题的原因有哪些。一般而言,内生性问题主要由测量误差(measurement error)、遗漏解释变量(explanatory variable omitted)、互为因果(simultaneity)三个方面原因造成的,而且,内生性的解决方法有很多,工具变量法IVHeckman两步法、倾向得分匹配(PSM)、DID、安慰剂法……大家可以借鉴其中一两种较为出色的方法,加以精致处理文章的内生性问题足矣!

内生性问题主要有三个来源:

1)  遗漏变量偏差,这是指模型中漏掉了一个或几个重要的解释变量,且这些被遗漏的解释变量与模型的解释变量相关。

你可以这样理解,本来在一个回归中,有一个重要的解释变量,但你没有把这个解释变量放进模型,这意味着这个变量会自动被包含进扰动项中。

如果这个被遗漏的解释变量与模型已有的解释变量不相关,那估计依然是无偏的。但是如果被遗漏的变量与没有被遗漏的变量相关,这就会造成解释变量与扰动项相关,也就是内生性问题的定义。

2)  测量误差。对于一个变量X,我们仅能观测到其中能够观测到的部分,比如X1,而对于X无法观测到的部分X2X=X1+X2,这里的意思是X由可观测的X1和不可观测的X2两部分组成),就被自然地放到了误差项。

那么X2是否与其他解释变量相关就不确定了,如果相关,就造成解释变量与误差项相关,也就是内生性问题。

3)  反向因果。当至少一个解释变量倍确定为被解释变量的函数,反向因果就出现了。

如果解释变量X被部分地确定为被解释变量Y的函数,这意味着XY相关,而Y与误差项相关,因此,X与误差项相关,回到内生性的定义。举个例子,公司的某项投资会影响公司绩效,但反过来,公司的绩效也会影响公司的该项投资,因为绩效好意味着公司有更多的钱来进行这种投资。

4)  动态面板偏差。动态面板是指面板数据模型中被解释变量的滞后项作为解释变量。

由于被解释变量与误差项有关,被解释变量的滞后项当然也与误差项有关,也就是说该解释变量(被解释变量的滞后项与误差项相关)。

5)  样本选择偏差。包括自选择偏差与样本选择偏差。自选择偏差是指解释变量不是随机的,而是经过选择的。

样本不是随机的,而是经过选择的。举个例子,你要研究人们对某个问题的看法,于是你在大学发放问卷,填问卷的人往往是在校大学生,无法代表整个人群的看法。

那么那些没有填写问卷的群里的看法就划到了误差项。

而在校大学生对某个问题的看法与非在校大学生的看法极有可能是相关的,因此造成解释变量与误差项相关,也就是内生性的定义。

从这个角度来看,选择性偏差造成遗漏变量,进而造成内生性问题。

如何解决内生性问题

解决内生性问题的常见方法,主要包括工具变量( instrumental variable,简称IV) 、固定效应模型( fixed effects model,简称FE) 、倾向值匹配( propensity score matching,简称PSM) 、实验以及准实验( experimentsand quasi-experiments) 等等。

最常见的是选用工具变量,工具变量:工具变量要求与内生解释变量相关,但又不能与被解释变量的扰动项相关。由于这两个要求常常是矛盾的,故在实践上寻找合适的工具变量常常很困难,需要相当的想象力与创作性。工具变量个数不少于方程中内生解释变量的个数。“恰好识别”时用2SLS

2SLS的实质是把内生解释变量分成两部分,即由工具变量所造成的外生的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS的要求(解释变量不具有内生性)而得到一致估计量。

举个例子,假设X为解释变量,就是自变量,Y为被解释变量就是因变量,u是干扰项。我们要验证XY之间的关系:

如果X是外生性的,也就是X和扰动项u不相关,X只能通过一条路径对Y产生影响,同时干扰项U也会通过另外一条路径对Y产生影响,通过对模型Y=aX +u进行回归,可以得到参数a的估计量。

但是如果X具有内生性,也就是X和干扰项u之间也相关,那么X可以直接对Y产生影响,干扰项 u也会通过XY产生一定影响。由图可知,在X具有内生性的情况下,如果仍然使用OLS回归,将得出XY的影响参数估计量为a+b/c,但是这个参数估计量并不能代表单独的XY之间的影响,它包含两部分,一方面是由X自身对Y的影响a,另一方面是干扰项u通过XY的影响b/c。因此,此时OLS不适用。

x内生性

这时候可以引入工具变量ZZ只和X相关,和干扰项u无关,此时先设X=eZ+w,w为此模型中的误差项,此时的Zw也无关。

第一步:用数据进行线性回归得出e的估计量,再把e的估计量带入方程X=eZ+w中,用Z来表示X, X=eZ+w

第二步:再把X=eZ+w带入Y=aX +u, 此时Y=aeZ +(ae+u),此时,Zw,u都无关,那么Z是外生性的,从而满足OLS的要求(解释变量不具有内生性),回归得出参数ae的估计量,即得出ZY的系数估计量。

X内生性,引入工具变量Z

工具变量的实质:就是把内生解释变量XY的影响分成了两部分,即X自身对Y产生影响的外生性部分,以及与扰动项U相关的其他内生部分。

第一步:把X的外生性部分用工具变量Z表示出来。

第二步:然后再把Y对这个外生部分Z进行回归,而得到一致估计量

本科论文面板数据已经做了稳健性检验,还要做内生性检验吗?

内生性问题肯定是存在的,如果想让文章更加具有说服力,内生性肯定要做的,甚至很多时候内生性检验就够了,都不需要其他的稳健性检验。但是如果是本科文章,我觉得可以用一些简单的内生性方法进行处理,比如用滞后一期变量做工具变量,比如用除去本公司的行业均值做工具变量,这样至少会让文章更加完整

在做经济学研究时,什么情况下需要去解决“内生性问题”?

做因果推断的时候,必须要进行内生性检验……此外,我想进一步说明的是,我说的因果推断不是单单指的时PSM-DIDRDD这些用于检验政策效应的因果方法,还包括多元线性回归模型,空间计量模型,静动态面板模型等,都需要进行内生性诊断……说白了内生性问题的来源:遗漏变量、互为因果、测量误差……这些因素在我们进行建模时都不可避免的会出现情况,所以需要进行内生性诊断……当然不也有一些模型不需要做内生性诊断,比如时间序列模型……

为什么使用滞后项就可以消除内生性?

但是多半用滞后项消除内生性的方法是不严谨的。

目前能够理论上稍微严谨的检验内生性的方法是在有工具变量的情况下,用类似与Hausman检验的方法。其他方法只能是说明性质的,有些甚至直接是错的。

转自蓝境数据微信公众号,仅作学习交流,如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com