原文信息:
Arkhangelsky, Dmitry, Susan Athey, David A. Hirshberg, Guido W. Imbens, and Stefan Wager. 2021. "Synthetic Difference-in-Differences." American Economic Review, 111 (12): 4088-4118.
本文向大家介绍诺奖得主Imbens团队2021年发表在《美国经济评论》上的一种因果推断方法——合成双重差分法(Synthetic Difference-in-Differences,简称SDID)。合成双重差分法将双重差分法(Difference-in-Differences,简称DID)和合成控制法(Synthetic Control,简称SC)有机结合起来,兼具两者的优点。具体来说,SDID方法使用个体权重和时间权重,并引入固定效应,削弱对平行趋势假设的依赖,允许有效的大面板推断,估计量更稳健、精度更高。
01
引言
DID和SC是政策评估的两种常用方法,这两种方法的应用条件不尽相同。DID方法适用于大量个体接受处理且满足平行趋势假设的情形,通过引入个体固定效应和时间固定效应来控制选择效应。SC方法适用于单个或少量个体接受处理的情形,通过调整个体权重,消除事前趋势(pre-trends),从而削弱了对平行趋势假设的依赖。DID和SC两种方法各有千秋,但是可以证明这两种方法的基本假设是密切相关的。
Arkhangelsky等(2021)巧妙地将DID和SC结合起来,提出了一种基于面板数据估计因果效应的新方法——合成双重差分法(SDID)。平行趋势(parallel trend)是DID方法能够正确识别因果效应的前提条件,而检验实验组和控制组的事前趋势是否平行,为我们提供了检验平行趋势假设的一种间接方法。如果存在事前趋势(pre-trends),常见的做法有引入控制变量(Abadie,2005)、选择相似的时期(Callaway and Sant’anna,2020)、以及选择相似的个体(SC方法)。而SDID的基本思想是,分别给控制组个体和处理前时期赋予个体权重和时间权重,并引入固定效应,从而削弱对平行趋势假设的依赖。
SDID方法兼具DID和SC的优点。类似SC,SDID方法重新加权并匹配事前趋势,以削弱对平行趋势假设的依赖。类似DID,SDID方法引入固定效应,允许有效的大面板推断。本文在理论上,提出了SDID估计量一致性和渐近正态性需要满足的条件;在实证上,说明了与DID和SC相比,SDID方法在稳健性和估计量精度上更具优势。
SDID方法的基本原理
02
(1)最小化问题
为了将SC、DID和SDID三种方法进行比较,本文提出了一个在包括个体固定效应和时间固定效应的双向固定效应 (two-way fixed effects,TWFE)回归中引入个体权重和时间权重的最小化问题,这个最小化问题具有一般性。
SDID方法是在TWFE回归中,通过个体权重和时间权重加权来估计因果效应(加权最小二乘回归),包括个体固定效应和时间固定效应。
与SDID方法相比,DID方法通过解决相同的TWFE回归问题来估计因果效应,包括个体固定效应和时间固定效应,但既不使用个体权重,也不使用时间权重(普通最小二乘回归)。
与SDID方法相比,SC方法仅包括时间固定效应,通过个体权重加权估计因果效应(加权最小二乘回归),不使用个体固定效应和时间权重。
通过上述比较可知,SDID方法在TWFE回归中,引入个体权重和时间权重,与DID和SC相比,更具一般性。
(2)确定个体权重和时间权重
个体权重和时间权重是SDID方法的关键,确定权重的思想是:平均意义上,与处理组个体越相似的个体赋予更高的权重,与处理时期越相似的时期赋予更高的权重。
个体权重应用于控制组个体,用来匹配控制组个体与处理组个体的处理前趋势。个体权重可以通过求解式(4)的最优化问题得到,这个最优化问题的基本思想是:对处理前的每一时期,控制组的加权平均结果与处理组的算数平均结果,尽可能接近,相差一个常数(截距项)。截距项是为了使事前趋势平行即可,不需要完全匹配。式(4)目标函数的最后一项添加了一个正则化惩罚项(限制取值范围),是为了使权重分散且唯一。
时间权重应用于处理前时期,用来平衡处理前和处理后的时期。个体权重可以通过求解式(6)的最优化问题得到,这个最优化问题的基本思想是:对控制组中的每一个体,处理前时期的加权平均结果与处理后时期的算数平均结果,相差一个常数。由于时间权重可能不唯一(目标函数有多个极小值),实践中通常添加一个很小的正则化惩罚项(限制取值范围)。
在确定好个体权重和时间权重,以及正则化参数之后,可以通过加权DID回归计算SDID估计量。
(3)处理效应
为了便于直接比较SC、DID和SDID三种方法的估计量(处理效应),本文将三个估计量改写为调整后结果的平均值减去调整后结果的加权平均值(权重为个体权重)的一般形式,如式(7)所示。其中,DID方法的个体权重为常数权重,即不随个体变化而变化。
对于三个估计量的调整后结果,SC方法使用处理后时期的未加权平均值,DID方法使用处理后时期的未加权平均值与处理前时期的未加权平均值之间的差异,SDID方法使用处理后时期的未加权平均值与处理前时期的加权平均值(权重为时间权重)之间的差异,如式(8)所示。
03
SDID方法的应用
本文使用Abadie等(2010)提供的数据集,研究美国加州第99号控烟法对人均香烟消费量的影响,以说明SDID方法的有效性。本文基于SDID、SC、DID、MC(矩阵完成法)和DIFP(对SC的改进)等五种方法,估计法案实施12年之后香烟消费税增加对加州人均香烟消费量的平均影响,不同方法的处理效应估计结果和标准误,如表1所示。
从表1可以看出,DID估计量最大(-27.3),正如Abadie等(2010)指出的,由于DID估计量的平行趋势假设在这个案例中是可疑的,这一估计结果可能夸大了政策变化对香烟消费量的影响。SDID估计量(-15.6)、SC估计量(-19.6)、MC估计量(-20.2)和DIFP估计量(-11.1)的估计结果,都小于DID估计量的估计结果。不同方法的估计结果存在差异,这说明引入时间权重和个体固定效应,对处理效应的估计产生了重大影响。并且,本文从理论上证明了,当SC方法(一般认为更可信)和SDID方法的估计结果不同时,SDID方法往往更可信。SDID、SC、MC和DIFP的标准误,都小于DID的标准误,说明SDID和SC方法通过引入个体权重和时间权重进行加权,改进了局部拟合结果。
DID、SC和SDID三种方法的结果趋势图(图1的上半部分)和个体权重图(图1的下半部分),如图1所示。
在图1上半部分的三幅结果趋势图中,红线表示加州人均香烟消费量的实际数据;蓝线表示控制组人均香烟消费量的算数平均值(DID方法)或加权平均值(SC和SDID方法);箭头表示估计的处理效应;三幅结果趋势图的底端横轴表示处理前时期各年的时间权重,DID方法处理前时期各年的时间权重为正且相等,SC方法处理前时期各年的时间权重为0,SDID方法在1986-1988年的时间权重为正,其余年份的时间权重为0。
对比图1上半部分的三幅结果趋势图可以看出,SC方法和SDID方法估计的处理效应,小于DID估计的处理效应。相比之下,由于存在事前趋势,DID估计结果受到质疑,这一估计结果可能夸大了政策干预对香烟消费量的影响;SC方法对控制组的州进行加权,使这些州的加权结果与加州的结果在处理前时期尽可能接近,然后将干预后加州与加权平均值之间的任何人均香烟消费量差异归因于干预。SDID方法所做的是重新加权未受到干预的控制组个体,使其时间趋势在处理前时期与加州平行(但不一定相同),然后对这个重新加权的面板数据应用DID方法。
在图1下半部分的三幅个体权重图中,各州按字母顺序排列在横轴,纵轴表示各州调整后结果的算数平均值与调整后结果的差异,水平线表示处理效应,点大小表示控制组个体的个体权重大小,个体权重为零的观测值用×符号表示。
对比图1下半部分的三幅个体权重图可以看出,DID的每个控制组个体权重相等,SC的个体权重是稀疏的(只有少数控制组个体权重大于0且个体权重大小差异较大),在DID和SC中,存在对处理效应影响较大的控制组个体(新罕布什尔州)。相比之下,SDID的个体权重比SC更分散,比DID的个体权重更有差异,整体上看,SDID中没有任何控制组个体对处理效应产生特别大的影响,这表明在引入个体权重和时间权重加权后,既实现了如图1上半部分所示的期望的“平行趋势”,又没有使用集中的权重以在估计量中引起过多的方差。
SDID方法不仅适用于单一处理时期的情形,也可以应用于存在多个处理时期(multiple treatment periods,即staggered adoption)的情形(本文的附录对此进行了简单的分析)。Porreca(2022)在本文的基础上,给出了多个处理时期情形下SDID估计量的形式、方差和标准误差。其中的思想是,多个处理时期情形下的SDID估计量,可以表示为多个数据子集平均处理效应的加权平均。其中,每个数据子集由全部控制组个体和一个处理cohort(包括同一时期接受处理的实验组个体)组成;权重为数据子集的处理组个体比例。
SDID方法的安慰剂研究
04
Bertrand等(2004)开展了一项具有里程碑意义的安慰剂研究。他们使用美国CPS(Current Population Survey)数据库,将CPS数据集中的一部分州随机分配作为安慰剂实验组,其余的州作为控制组,检查不同DID估计量对真实处理效应的覆盖程度。
本文在参考该方法的基础上做了修改,在安慰剂实验组随机分配和安慰剂实验组非随机分配两种情况下,比较三种方法估计量的表现。图2展示了SDID、SC和DID三种估计量的误差分布,其中,左图安慰剂实验组使用州的最低工资法进行分配,右图安慰剂实验组进行随机分配(类似于Bertrand等,2004)。由图2可知,当安慰剂实验组不是随机分配时,DID的误差分布(红色)明显偏离中心,这表明DID估计量存在偏差。相比之下,SDID的误差几乎居中。当安慰剂实验组为随机分配时,三种估计量都是无偏的,但DID方法的误差更分散。图2表明,在两种情况中,SDID的误差分布几乎是无偏的、高斯的,这表明使用SDID估计的处理效应作为有效推断是可能的。
安慰剂研究的结果表明,与SC和DID等方法相比,SDID方法无论是在偏差方面还是在均方根误差(RMSE,均方根误差越小越精确)方面,均有更出色的表现。另外本文在理论上证明了SDID估计量在一定的正则条件下,是一个渐进正态的分布。
05
SDID方法的标准误计算
计算SDID方法的标准误,有三种常用的方法:聚类自助抽样(clustered bootstrap)、刀切法(leave-one-out jackknife)和安慰剂检验(placebo test)。
第一种方法是聚类自助抽样(clustered bootstrap),将样本看做是总体,进行有放回的抽样,这种方法的主要缺点是每一次抽样需要运行一次完整的SDID算法,对于大型数据集来说,计算成本可能很高。
第二种方法是刀切法(leave-one-out jackknife),每次拿出一个观测个体不用,得到不同的估计量,计算标准误,这种方法只需要运行一次完整的SDID算法,减少了计算负担。以上两种方法,不适用于只有单一处理个体的SC方法。
第三种方法是安慰剂检验(placebo test),依次将控制组中的每个个体作为假想的处理个体,加州作为控制组(可去掉),使用SC,计算小概率事件发生的概率,这种方法适用于任何样本容量,但依赖同方差假定。
小结
06
Athey等人巧妙地将DID和SC结合起来,提出了合成双重差分法(SDID)。SDID方法不仅通过引入应用于控制组个体的个体权重,找到与处理组个体相似的控制组个体赋予更高的权重,还通过引入应用于处理前时期的时间权重,找到与处理后时期相似的处理前时期赋予更高的权重。
SDID方法兼具DID和SC的优点。一方面,SDID方法通过引入个体权重和时间权重,匹配了控制组个体与处理组个体的处理前趋势,并平衡了处理前和处理后的时期,从而利用SC的优点,削弱了对平行趋势假设的依赖,而只使用相似的个体和相似的时期也使SDID估计量更加稳健、精度更高。另一方面,SDID方法也吸收了DID方法的优点,引入了个体固定效应和时间固定效应,并允许有效的大面板推断。SDID方法不仅适用于单一处理时期的情形,也可以应用于存在多个处理时期(staggered adoption)和多个处理组个体的情形,还可以引入时变的外生协变量。
在应用过程中,使用Stata命令sdid,以及R命令synthdid、xsynthdid和staggered_synth_DID,可以得到SDID估计量,并进行统计推断和结果可视化。SDID方法方兴未艾,应用这种方法的经验研究还比较少见(例如,Campos等,2022),值得大家的持续关注和探索。
推展阅读:
Porreca, Zachary. "Synthetic Difference-In-Differences Estimation With Staggered Treatment Timing." Available at SSRN (2022).
Campos, Nauro F., Fabrizio Coricelli, and Emanuele Franceschi. "Institutional integration and productivity growth: Evidence from the 1995 enlargement of the European Union." European Economic Review (2022): 104014.
Abstract
We present a new estimator for causal effects with panel data that builds on insights behind the widely used difference-in-differences and synthetic control methods. Relative to these methods we find, both theoretically and empirically, that this "synthetic difference-in-differences" estimator has desirable robustness properties, and that it performs well in settings where the conventional estimators are commonly used in practice. We study the asymptotic behavior of the estimator when the systematic part of the outcome model includes latent unit factors interacted with latent time factors, and we present conditions for consistency and asymptotic normality.
推文作者简介
张鑫宇,中国人民大学国家发展与战略研究院博士后,邮箱:xinyuzhang@ruc.edu.cn
本推文由中国经济转型讨论班(CETW)供稿。
转自:“香樟经济学术圈”微信公众号
如有侵权,请联系本站删除!