勇敢打开“残差项”这个潘多拉之盒
2023/8/9 11:12:21 阅读:35 发布者:
文章作者:葛玉好
文章来源:E校挺好
整理自:量化研究方法
在经济学实证研究中,特别是劳动经济学领域,经常碰到内生性问题。它是指“回归式的残差项与所关心的主要解释变量X高度相关,从而让研究者得不到X前面系数的一致估计量”。从目前情况来看,处理内生性问题的经典方法,例如工具变量法、面板数据的固定效应法、倍差法、断点回归法等,对残差项的处理基本都是一种“绕着走”的思路,没有直接去探究“残差项”这个黑盒里面到底包含什么内容。
是否打开“残差项”这个黑盒与研究定位有很大关系。如果我们的研究定位是“验证大佬们的理论”,死心塌地研究大佬所言及的X对Y的影响,那么打开“残差项”这个黑盒就没有必要,我们可以“绕着走”。但是,大佬们所言及的那个X,可能只是影响Y的一个小因素,可把它称之为“小苹果”。这样的研究定位,会让我们的实证研究陷入讨论“小苹果”对Y到底有没有影响的“坑”,很难跳出来去寻找影响Y的那些称得上是“大西瓜”的因素。
如果我们的研究定位是“最大程度地理解社会上的某种现象”,即寻找影响Y的所有重要因素时,我们就应该打开“残差项”这个黑盒。打开黑盒后,我们可能会发现大佬们所提出的那个X并不重要,很多围绕这个主题的研究也就没多大意义。另一方面,残差项里面有很多宝贝,不仅有“大西瓜”,还可能有我们根本没有想象到的更好的东西。所以,“残差项”这个黑盒就是潘多拉之盒,祸福并存。Heckman教授,从“认知能力”的研究转向“非认知能力”的研究,可能就是在打开这个潘多拉之盒。
有些研究者也会研究一些新的X对Y的影响,并且还使用解决内生性问题的经典方法得到因果关系。但此类做法,大多数情况下,都是在“赌”,或者只是在验证研究者自己头脑中的想法而已。我们打开”残差项“这个潘多拉之盒的过程,同样要遵循一些基本的科学规则,不是靠“赌”和“猜”。
这里,我们可能借鉴机器学习和深度学习的相关思路。
首先,要把数据集分为训练集和测试集;
其次,在训练集中训练模型;
最后,在测试集中测试模型。
计量经济学中的拟合优度,只是在训练集中讨论模型优劣,不涉及测试集,但聊胜于无,也可作为一个判断指标。如果某个我们没有注意的X,能够大幅提高拟合优度,那它就有可能是上面所提及的”大西瓜“。
知易行难。我们实证研究所使用的数据库,大多都是二手调查数据,变量个数已经固定,”大西瓜“根本不在数据之中。这类情况客观存在,所以我们更应关注基于现实情景大数据的研究,它们可能无法解决内生性,无法得到因果关系,但只要它们的拟合优度足够高,就有可取之处。分析这些研究所包含的那些不经常使用的X,有助于我们理解”残差项“里面的内容。
概而言之,本文想要表达的是:
(1)要敢于打开”残差项“这个潘多拉之盒,最起码要有这个意识;
(2)要包容那些高拟合优度的相关关系研究,不过度苛求因果关系;
(3)要重视真实情景大数据的作用,减少对二手调查数据的依赖。
转自:“经管学苑”微信公众号
如有侵权,请联系本站删除!