我们能在多大程度上相信工具变量估计的结果？

2022/11/28 14:49:23　阅读：1125　发布者：

原文信息：Lal, Apoorva and Lockhart, Mackenzie William and Xu, Yiqing and Zu, Ziwen, How Much Should We Trust Instrumental Variable Estimates in Political Science? Practical Advice based on Over 60 Replicated Studies (December 21, 2021). Available at SSRN:

https://ssrn.com/ab-stract=3905329.

问题的提出

工具变量估计是实证研究中缓解内生性问题的重要方法，随着工具变量方法的广泛运用，学界越来越关心工具变量的有效性与使用过程中的严谨性。已经有一些学者指出，利用IV估计得到的因果效应往往要比OLS大很多。然而，这并不是因为内生性通常使得OLS低估因果效应。正如姜纬老师在2017年发表的文章“Have Instrumental Variables Brought Us Closer to the Truth”中所指出的，在金融领域中，有大约70%的文章的内生性是使得OLS高估因果效应的。此时，如果IV估计得到的是真实的因果效应，那么理应小于OLS的估计结果。正因如此，当我们发现绝大部分的文章的IV估计结果大于OLS时，我们就必须要怀疑这些IV估计的可靠性了。

在本推文所介绍的文章中，作者考察了政治学领域中使用工具变量方法的文章，发现了同样的问题。作者强调，这一现象的出现并非客观原因，而是部分研究者在使用工具变量方法时不够谨慎，比如没有汇报2SLS中第一阶段的F统计量、没有选用合适的标准误、使用弱工具变量进行估计等。这些做法导致了一个不好的后果：在工具变量排他性约束不完全满足的情况下，弱工具变量放大了IV估计的偏误，甚至比OLS的偏误还要更大。随后，作者推荐了一个间接检验工具变量排他性约束的方法Zero-first-stage test，并且推荐了一种在排他性约束不完全满足时的修正方法。

工具变量法的简要回顾

这一部分将简要回顾工具变量方法，并尝试在理论上寻找可能导致IV估计结果比OLS估计结果大很多的原因。假设考察x对y的因果效应，z是x的工具变量，则有：

根据是否满足两个前提假设，可以将工具变量估计分为四种情形，除去完美符合两个假设的情形，还余下三种可能导致偏误的情形。

S2：工具变量不满足排他性，但相关性较强。此时，虽然IV估计量是不一致的，但是偏差相比起OLS更小，IV估计量依然比OLS更接近真实值。

S3：工具变量不满足排他性，而且相关性较弱。在这种情况下，IV估计的偏误甚至比OLS的偏误还要大。而且大多数情况下，ρ(zi,εi)和 ρ(xi,εi)的符号是相同的，这就有可能导致前文提到的现象出现：尽管在某些研究中内生性的存在是使得OLS高估因果效应的，但IV的估计结果比OLS的估计结果还要大得多。

现有研究中使用工具变量的问题

在原文中，作者考察了2010年至2020年6月发表在政治学三大顶级期刊上(APSR、AJPS和JOP)使用了工具变量方法的文章。满足作者的筛选标准的文章一共有115篇，其中有61篇文章的结果能够实现复现；由于有3篇文章分别有两个不同的IV估计，因此最终一共有64个IV估计结果。作者在原文中将其归纳为4种不同的IV类型(Theory、Experiment、Rules & policy changes、Econometrics)，读者可以进一步参考原文，推文中不再详述。

(一)第一阶段F统计量

作者首先考察了这64个IV估计的第一阶段F统计量。作者利用对应的数据集重新估计了基于Bootstrap标准误的F统计量(如果数据可以聚类，则使用聚类的Bootstrap标准误)，并将其与原文中汇报的F统计量进行对比。之所以用基于Bootstrap标准误的F统计量作为参照，是因为它更加保守(也就是更小)。原文的附录展示了基于蒙特卡洛模拟得到的一组结论(Figure A11)：与其他F统计量对比，基于Bootstrap标准误的F统计量往往更小；当数据需要进行聚类而未采用聚类标准误时，得到的F统计量会大大高估工具变量的强度。

作者发现，在64个IV估计中，有14个(22%)没有汇报第一阶段的F统计量(不过作者这里可能夸大了这一问题的危害，因为似乎在这14篇文章中，很多文章重估得到的F统计量是很大的)，以及有10个使用了经典的渐进标准误(即未考虑异方差或组内相关)。下图展示出了作者重估的F统计量与原文汇报的F统计量之间的关系：在这50个汇报了第一阶段F统计量的结果中，有35个(70%)汇报的F统计量大于作者重估的基于Bootstrap标准误的F统计量。如果根据F>10的经验法则，则有12个IV估计的重估F统计量不符合要求；然而，这12个估计结果中，3个没有汇报F统计量，7个使用了更加宽松的标准误而使得F统计量大于10。而如果使用更加严格的标准(F≥104.7)，那么只剩20个(31%)IV估计符合要求了。另外，作者指出基于随机实验得到的工具变量(F统计量中位数为122.5)往往比其他类型的工具变量更强(F统计量中位数为41.2)。

综上，根据作者对第一阶段F统计量的考察，可以总结出三个问题：第一，部分研究者不汇报F统计量；第二，部分研究者使用的F统计量并不恰当，尤其是在应当聚类的情况下使用了未考虑组内相关的标准误；第三，除了由随机实验得到的工具变量，其他类型的工具变量的强度不尽人意。

(二)第二阶段z-score

对于z-score的考察反映出两个问题：第一，部分研究使用的标准误不够恰当，尤其是有的使用了渐进标准误，导致高估了核心变量系数的显著性；第二，作者指出，有些研究在工具变量相关性并不强的情况下，也并没有尝试一些专门为弱工具变量设计的检验(比如Anderson-Rubin test等等)。

(三)比较OLS和2SLS的估计系数

在这一部分中，作者开始重点比较IV的估计结果与OLS的估计结果之间的大小关系。Figure 3的(a)图呈现出了明显的规律：IV和OLS得到的估计系数的符号基本上是一致的(60个估计结果满足，占比94%)，而且IV估计得到的系数绝对值基本都比OLS的大(59个结果满足，占比92%)。因此，在其他学科的文献中普遍出现的现象，在政治学领域也出现了。作者在(b)图中绘制了两个系数估计值的相对大小的分布图，IV估计得到的系数平均是OLS估计的14.3倍，中位数是2.6倍。

综合上述的所有发现，作者对IV估计的因果效应明显大于OLS这一现象提供了一个有明确证据支持的解释：在大多数研究中，工具变量的排他性约束是不满足的；然而在这种情况下，部分研究者由于选择了不恰当的标准误而高估了工具变量的相关性，使用了弱工具变量对因果效应进行估计，这反而放大了排他性约束不满足而导致的不一致性，最终使得IV估计量比OLS估计量的偏误还要大。

如何更好判断工具变量的有效性

(一)Zero-first-stage test

工具变量的有效性取决于两个假设是否满足，其中相关性假设是可以检验的，因此主要依靠研究者更加严谨、甚至应当更加保守地处理。困难的事情在于，排他性约束是无法直接检验的。在原文中，作者推荐了一种安慰剂检验Zero-first-stage test (ZFS test)(Bound and Jaeger, 2000)，这一检验的核心思想在于：找到一个与研究群体在各方面类似的新群体，但这一新群体的x不受到工具变量z的影响(在LATE框架中，这一个新群体相当于是never-takers)；如果工具变量的排他性约束是满足的(也就是说，除了通过影响x进而影响y，变量z不会再通过其他渠道对y产生影响)，那么对于这一新群体，式(3)的回归结果中(z对y的回归)z的系数就不应该显著。如果显著，则可以拒绝相信工具变量满足排他性约束；如果不显著，则为工具满足排他性约束提供了一些证据。

为了更好地说明ZFS test，作者在原文中以Guiso et al. (2016)的“Long-term persistence”一文进行了举例说明。这篇文章中考察的核心问题是：那些在中世纪实现自治(独立)(x)的意大利城邦，在今天是否会拥有更高的社会资本(y)？由于x存在内生性，Guiso等人找到了一个工具变量——该城邦在中世纪是否为主教所在地。为了说明这一工具变量的合理性，下面简单介绍一下当时的历史背景。公元1000年前，北意大利是罗马帝国的一部分，但之后罗马帝国走向衰弱、慢慢解体，导致在北意大利出现了一些独立的城邦。独立城邦出现的核心在于建立起了一种“誓约”：城邦的成员互相帮助、共同解决集体问题、共同抵御罗马帝国的王权等。因此，在历史上实现自治有利于提高今天的社会资本，这一命题是相当符合直觉的。另外，由于主教是誓约的担保人，因此作为主教所在地的城邦更有可能达成这种誓约。而南意大利则不同，在1061年至1091年间，诺曼王朝入侵了意大利南部，使得南意大利成为这一强大王朝的一部分；由于诺曼王朝强大的中央权力，南意大利并没有出现自由城邦。因此，南意大利的城邦正是前面提到的合适的新群体(never-takers)，因为无论一个城邦是否是主教所在地，该城邦都没有独立。在南意大利的样本中，工具变量不可能通过影响x进而影响y，所以如果工具变量排他性约束是满足的，在南意大利样本中，z对y的回归结果应当至少是不显著的。

Guiso等人在原文中进行了这一检验，Table 6展示了估计的结果(为节约篇幅，表格未展示完全，表中的解释变量Ease of coordination即为工具变量)，其中第(Ⅰ)列到第(Ⅲ)列是北意大利的城邦样本，第(Ⅳ)到第(Ⅵ)列是南意大利的城邦样本，被解释变量分别是三个指代社会资本的指标。可以发现，在北意大利的样本中，z对y产生了显著的影响：历史上是主教所在地的北意大利城邦，在今天有更高的慈善捐赠、器官捐赠，以及更少的考试作弊。而在南意大利城邦中，由于不存在独立城邦，因此z对y的影响是不显著的(除了第(Ⅴ)列，原文中辩护道，这一列的估计系数要远远小于第(Ⅱ)列，说明工具变量对排他性约束的违反并不严重)。

在推文中需要指出，这一安慰剂检验是否有效取决于一个假设：即北意大利城邦的各类变量与南意大利城邦的各类变量之间存在类似的因果关系。如果这一假设不满足，那么即使ZFS test支持工具变量对南意大利样本满足排他性约束，也难以外推到北意大利的样本之中。然而，这一假设是难以检验的，因此在一定程度上可以说，ZFS test只是把难以检验的排他性约束转化为了另一个难以检验的问题。读者还是需要依据自己所研究的对象的实际情况选择合适的检验方法。

(二)“Local to zero” corretion

实际上，ZFS test不仅可以作为一种安慰剂检验，还能够通过与Local-to-zero correction方法相结合，修正部分不够外生的工具变量的估计结果。如果工具变量的排他性约束不满足，则在结构方程Y=Xβ+Zγ+ε中，γ≠0。Conley et al. (2012)已经证明，当γ服从某一分布F的时候，2SLS估计量满足：

上述方法建立在“plausibly exogenous”方法(或称“Local to zero”方法)的基础上，在Stata中可以使用plausexog命令来实现(ssc install plausexog)。作者在推荐完这一处理方法之后，利用这一方法对Guiso et al. (2016)的结论重新进行估计，下图展示了估计的结果，图中标注出了系数点估计值及其95%置信区间(左边两个图对应前面Table 6的第(Ⅰ)列，右边两个图对应第(Ⅱ)列)。可以发现，在使用Local-to-zero方法之后，系数的点估计值有所下降，而且标准误进一步增大。在ZFS test中，第(Ⅴ)列的估计结果在经济意义和统计意义上均是显著的，表明工具变量在这一估计中并不够外生，因此在右边的两个图中，使用Local-to-zero方法之后估计结果的变动非常明显，此时系数已经不再显著。

总结

最后，本推文将原文作者提出的九点建议与姜纬老师在“Have Instrumental Variables Brought Us Closer to the Truth”一文中提出的三大建议相结合，总结出以下十点使用工具变量方法时的注意事项，供读者参考：

1、在使用工具变量方法之前，想清楚潜在的内生性是会使得因果效应被高估还是低估。如果担心的是OLS低估因果效应，而OLS的估计结果已经是显著的了，那么可能没必要使用IV估计。另外，在正式使用IV估计之前，最好先对可能存在的偏误进行一定篇幅的讨论。

2、在研究设计的阶段，就要先想好选用的工具变量能不能对x产生一个(准)随机的冲击。正如Rubin所说，在因果推断中，研究设计比后续分析更重要(design trumps analysis)。

3、在跑完第一阶段回归之后，画图看看x和x（hat）之间的关系(当然，这里是指排除了各种协变量和固定效应之后)，先目测一下工具变量的相关性。

4、利用Bootstrap标准误来计算第一阶段的F统计量，如果数据是可以聚类的，则应该使用聚类的Bootstrap标准误。如果第一阶段的F统计量很大(比如说F≥104.7)，那么就可以继续下去。另外，工具变量的相关性强弱要公开透明，不要只汇报一个R2，因为R2大可能是因为协变量。

5、使用Bootstrap方法来计算2SLS的标准误和置信区间，以及要进行一些在弱工具变量的情况下也比较稳健的检验，比如AR test。

6、如果预计内生性的存在会使得OLS高估因果效应，而随后用IV估计得到的结果比OLS还要大，则必须要谨慎对待这一结论。

7、如果有充分的理由相信，处理效应对于compliers产生的效果比其他群体的大很多，那么请认真分析这一群体，并提供令人信服的解释。

8、由于never-takers是进行ZFS test的合适群体，所以如果能够找到这么一个群体，请进行安慰剂检验，尝试说明IV不会对这一群体的产生影响。

9、在第8的基础上，利用ZFS test的估计结果，使用LTZ correction修正IV的估计值和置信区间，并与原来的估计结果进行对比。

10、在使用工具变量方法估计出对的因果效应之后，一定不要忘记思考系数的现实意义。无论系数在统计上多么严谨，如果不符合现实，那也需要再好好琢磨。

Abstract

Instrumental variable (IV) strategies are commonly used in political science to establish causal relationships, yet the identifying assumptions required by an IV design are demanding and it remains challenging for researchers to evaluate their plausibility. We replicate 61 papers published in three top journals in political science from the past decade (2010-2020) and document several troubling patterns: (1) researchers often miscalculate the first-stage F statistics, overestimating the strength of their IVs; (2) most researchers rely on classical asymptotic standard errors, which often severely underestimate the uncertainties around the two-stage-least-squares (2SLS) estimates; (3) in the majority of the replicated studies, the 2SLS estimates are much bigger than the ordinary-least-squares estimates, and their ratio is negatively correlated with the strength of the IVs in studies where the IVs are not experimentally generated, suggesting potential violations of the exclusion restriction. To improve practice, we provide a checklist for researchers to avoid these pitfalls and recommend a zero-first-stage test and a local-to-zero procedure to guard against failures of the identifying assumptions.

(本推文由中国经济转型讨论班(CETW)供稿。推文对原文有少量的修改和补充，同时加入了推文作者的理解，对于推文中存在的错误，请读者们批评指正！)

原创：陈泽宇，中国人民大学经济学院2018级经济学本科，邮箱：rucczy@ruc.edu.cn。

转自：“香樟经济学术圈”微信公众号

如有侵权，请联系本站删除！

投稿问答最小化 关闭

我们能在多大程度上相信工具变量估计的结果？

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

我们能在多大程度上相信工具变量估计的结果？

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭