原文信息:
C. Armstrong, J.D. Kepler, D. Samuels et al., Causality redux: The evolution of empirical methods in accounting research and the growth of quasi-experiments, Journal of Accounting and Economics, https://doi.org/10.1016/j.jacceco.2022.101521
写在前面:该文回顾了会计领域文献中用于得出因果推断的实证研究方法。近些年来,学者们已经观察到寻求利用观测环境中的随机变化方法(即“准实验方法”)的使用在研究中的繁荣兴盛。作者对上述方法的主要假设进行了系统性综合,讨论了在会计学研究文献中应用这些方法的实际思考,在此基础上提出了一个思维框架:准实验方法和非实验类方法如何以及在何种环境下适合于解决会计研究者感兴趣的因果识别问题。虽然因果识别问题成为了当前学界所执着的主流,但需要警惕的是,研究工作不能仅将注意力局限在那些有准实验的因果问题之上。为此,作者提出了一种解决因果识别问题的补充方法,其不依赖于准自然实验,而是依靠经济理论的结合,发展和证伪替代解释,通过多个场景设置、测量和研究设计对结果进行三角论证,并且在合适的地方对结果的适用性提出解释。
01
整体概述
1.1.目标
与传统文献回顾聚焦于研究主题不同,本文主要聚焦于经验研究方法。具体而言,作者回顾了会计研究者从档案数据中得出因果识别的经验方法的演变过程。各种研究形式表明,学术行业(这里指会计领域)越来越重视对因果推断的改善和强化。作者明确指出该篇综述研究的目的不是对会计研究人员应该如何得出因果推断进行规范性的表述,而是对研究者进行因果识别的一次实证性检验,同时强调与当前实证水准相关的实施挑战和权衡方法。
这篇综述的源自学术实践(包括作者、审稿者、同事和博士生)中收到的哲学和方法论问题,尤其是博士生对因果识别的关注:我的论文需要明确地得出因果推论吗?如果证据不支持当前的想法,我是否应该另寻他路?我需要用什么方法来进行因果推论?我的论文应该围绕这个有趣的背景展开,还是检验潜在更广泛的理论?这个选择对我的研究设计有影响吗?因为这些问题通常是依研究人员和环境具体展现的,所以并没有“一刀切”的答案。因此,这篇综述并不寻求回答这些问题本身,而是寻求为如何思考这些问题和权衡潜在答案提供一个框架和讨论。
值得注意的是,这样的框架尚未出现在过往关于会计研究领域因果推断的综述论文中 (Gow等,2016),而且很少出现在常见的计量经济学教科书中(Angrist 和 Pischke,2008)。任何试图处理数据的人都知道,很少有数据符合计量经济学教科书中常见的假设和方便的线性表示。事实上,在许多教科书中采用的方法是存在一个未观察到的线性数据生成过程,研究人员的主要作用是估计恢复未观察模型中的参数的规范。当数据生成过程未知时,这些教科书很少讨论模型的建立和拟合,也很少讨论围绕因果推理的科学哲学。如果非要说有的话,对计量经济学教科书的一个常见批评是它们似乎觉得获得因果推断是直接明了的,人们只需要找到一个环境,认为该环境提供了类似随机的变化,然后进行差分的固定程式化估计(可参见Hennessy和Strebulaev在2020年的批评)。因此,因果识别理论(即研究人员应该如何得出因果识别)和会计文献中的因果识别实践(即研究人员是如何得出因果推断)之间存在差距。本文的文献综述旨在强调并跨越这一差距。
作者的综述和框架强调(1)关乎因果识别的理论和制度知识的需求;(2)因果识别需要多场景、多研究设计和多测量对推理进行三角论证;(3)因果识别的各种方法和技术的互补性。作者应该正视以下事实:作为实证研究人员,作者很少知道潜在的数据生成过程。因此,几乎不可能确定某种特定的计量经济规范一定是“更稳健”或严格优于另一种规范。事实上,如果不了解基础数据生成过程,很难说哪个计量经济规范是“具有更优识别能力的规范”。令人确定的是,计量专业知识和理论适配是因果识别的两个关键因素,它们能够帮助研究者排除替代性解释,发展出清晰明确的检验。
1.2.各部分简述
第二部分对自2005年以来发表在《会计与经济学杂志》(Journal of Accounting and Economics)、《会计研究杂志》(Journal of Accounting Research)和《会计评论》(The Accounting Review)上的所有实证研究论文进行了综合研究。研究集中在这些论文使用的方法以及这些文章是否寻求明确得出因果推断。与Angrist和Pischke(2008)类似,文章将寻求使用外生冲击或者其他程式化设定的方法定义为“准实验方法”,这些方法意图为相应的解释变量提供似随机的变化,除此以外,其他方法则被归类为“非实验性”。研究清楚地表明,因果识别无疑是“时髦”并非昙花一现的时尚,在过去的15年里,使用准实验方法进行因果识别的文章增加了4-5倍,超过75%的文章使用了经典的双重差分模型(DID)进行变量设计,在研究管制的效应领域,65%的文章使用准实验方法进行因果推断。作者在贝叶斯学习框架(Bayesian learning framework)下讨论了上述实证研究方法的趋势,在该框架下,修正信念的必要证据标准会随着正在检验的理论的演化而发生变化。
第3.1节首先讨论了如何使用简单的混合普通最小二乘(OLS)回归来得出因果推断。正如普通计量经济学教科书所讨论的那样,如果OLS假设成立(如不存在相关的遗漏变量),那么混合OLS可以用来进行因果推断(Stock 和 Watson,2003;Angrist 和 Pischke,2008)。如果是这样,说明了方法的选择本身并没有赋予研究人员作出因果推论的能力,而是如何使该方法的假设与理论和数据相吻合才是重要的。在实践中,上述简单的混合OLS模型假定并没有获得研究者更多的信赖,因此文章讨论了会计研究人员倾向于使用的三种常用方法来处理相关变量遗漏的状况,并讨论了特定遗漏变量识别、固定效应和横截面交互作用三种方法的优缺点。
在介绍了遗漏变量的威胁之后,第3.2节介绍了在会计研究中用于得出因果推断的最常见的一种方法——双重差分(DID)设计。作者对DID设计的讨论回到了截面交互设计的计量经济学和遗漏变量威胁。具体来说,他们讨论了DID设计如何代表更一般的横截面交互设计的具体情况,其中一个变量将数据划分为两个不同的子样本,并对每个子样本进行汇总回归估计,以此比较两个样本的系数。文章强调了DID设计的平行趋势假设与横断面交互设计中的“无相关遗漏变量假设”是有效等价的。作者的讨论强调,得出因果推论的能力不是来自于特定计量经济学方法的应用,而是来自于该方法的理论假设的有效性,而这种理论假设 关键取决于研究者对被研究的特定环境的制度知识。
在讨论了通常用于进行因果推断的方法之后,第3.3节讨论了理论在因果推理中的两个重要作用。首先,无论是非正式的直觉还是正式的经济模型,解释相关性需要理论。所有计量经济学方法都估计相关性。有些相关性比其他相关性更有意义(参见Vigen 2015年汇编的纯粹相关性),赋予相关性意义的是作者如何根据理论假设来解释它们。在没有理论的情况下,双变量相关性的检验价值不大于或小于最严格的计量经济学方法估计的相关性价值。理论使研究人员能够从因果推断中分离出虚假的推论——这些研究看似具有随机相关性,但并无意义。理论越精确,估计的相关性就越有意义,得出的推论就越可信。
第二,需要理论来外推因果推断。一般化性的过程是指将从单个实证检验(或一组检验)中获得的推断外扩展到样本之外的情况,并最终推到被检验的基础理论。在程式化研究背景下归纳推论的能力关键取决于论文理论基础的强度。如果理论不令人信服,那么推论必然局限于被研究的环境。作者讨论了一般化是(或不)需要考虑的设置和环境,一般化的重要性如何不取决于方法或环境,而是取决于被研究的具体研究问题。在介绍了因果识别的概念基础之后,第4节转向了更实际的问题和相关的实现挑战。作者的文献研究揭示了研究人员经常面临的关于因果识别的三个核心实施挑战。
第4.1节强调了外生事件和提供看似随机分配的事件之间的区别。尽管这种区分对于因果推断是至关重要的(Atanasov 和 Black,2016;Hennessey 和 Strebulaev,2020),但作者调查中的许多论文仍然没有做出这种区分。想想牛津词典中对“外生”的定义:“有外部原因或起源。经常与内源性对比:例如,技术变革对石油工业产生了外生影响。”这个定义清楚表明,外生事件(或变量)指的是来自被研究的系统之外的东西。这说明了事件的起源,但没有说明它是否提供了似随机变化。在这方面,一个事件对被研究的公司来说似乎是外生的(例如,会计标准的引入),但却不能为处理组和对照组提供似随机的分配。
作者采用两种方法来说明区分外生性和似随机变化概念的重要性。首先,作者在会计研究中研究的几个监管设置的背景下讨论这些概念。特别是纽交所/纳斯达克董事会的独立性要求以及加州和挪威董事会的性别多样性要求。尽管可以说是外生的,但这类监管对企业的影响往往被设计成企业事前内生选择的机械性功能,因此并非随机的。第二,作者在理论经济的背景下讨论这些概念,在这个背景下,以前自愿的行为被强制了。在这个理论经济中,强制行动的效果,虽然看似外生,但明确地以之前自愿的选择为条件,这可能导致对因果效应的有偏估计。
第4.2节讨论了用于评估DID设计的平行趋势假设是否成立的常用检验。虽然平行趋势假设本身是不可检验的,但诊断检验可以提供对可能违反该假设的有用洞察。事实上,作者们越来越普遍地以图形形式呈现“处理效应”(即处理组和对照组之间的差异)随时间变化的估计:处理前后的几个时间段。尽管这些诊断检验是有用的,但依赖于图形展现以及不同的读者可能对同一图有不同的解释,一个给定的图是否支持平行趋势假设往往有相当大的主观性。因此,这些诊断检验不是万灵药——它们对因果推断既不是必要的,也不是充分的(限于篇幅,本节未完全在此公共号推文中体现大量技术细节,有兴趣的读者可与推文作者联系获取全文)。
第4.3节讨论了文献中常见的与高维固定效应设计相关的两种权衡(tradeoff)方法。文献中使用的许多双重差分设计的标志之一是包含高维固定效应。如3.1节所述,这些方法有助于排除相关的遗漏变量。然而,这些方法并非没有权衡。首先,当一个相关的遗漏变量的变化来源是在组内(而不是跨组),包括群体固定效应会加剧遗漏变量偏差。其次,包括高维固定效应可以诱导显著的多重共线性,并增加回归结果对少数观察的敏感性。考虑到回归结果错误报告的可能性以及研究者本身记录的脆弱性,作者鼓励研究人员:(1)明确地激励他们对固定效应的选择,(2)提出多重共线性的回归诊断,(3)报告被固定效应吸收的自变量的变化,以及(4)通过可选的固定效应结构的三角推断。如果结果对特定规范敏感,作者鼓励透明的报告和对该敏感性的讨论(Bianchi等,2021)。研究者要提防这样的认知偏差:推断(或事后证明)在预测方向上产生统计意义的规范就是正确的规范。
在讨论了与准实验方法相关的实现挑战之后,第5节提供了一个概念框架,用于评估非实验方法(即不寻求模拟实验的方法)在促进因果推断方面的作用。作者提出了三个问题:(i)研究者是否需要一个实验或准实验的环境来解决一个因果问题?(ii)如何在单一研究中结合非实验和准实验证据来确定因果机制?(iii)当准实验证据与非实验证据可能发生冲突时,作者是否应该优先考虑前者而非后者?
与会计文献中的传统智慧相比,本文所提出的观点认为有一些因果问题是不适合准自然实验的。作者通过几个案例说明来自没有随机变化的背景的证据是如何有助于解决因果问题,讨论了在单一研究中结合准实验和非实验环境的优势,讨论了即使是那些存在普遍内生性问题的环境下忽视非实验环境的证据的危险。文章在第6节给出了结论性的思考。作者对会计领域文献的研究发现,得出可靠的因果推论是非常具有挑战性的,比简单地选择方法更具挑战性。可靠的因果推论需要令人信服的经济理论,做出与被研究的制度背景相一致的假设的方法,以及大量的稳健性检验,以跨(通常是暗含的)理论假设进行三角推断。尽管研究人员尽了最大努力,但有时他们还是无法找到一个接近实验理想的环境,在这些情况下,使用带有适当说明的非实验方法提供证据是可以接受的,甚至是可取的。作者指出要警惕研究的局限:人们应该把注意力限制在那些有利于准实验方法的环境下的因果问题上。
实证(经验)方法的演变
02
2.1.实证文章的调查
2.2.1.调查方法
为了确定会计文献中实证档案方法的演变趋势,作者建立了一个2005年至2019年在JAE、JAR和TAR上发表的所有实证研究的目录。为了检测该档案研究,作者识别了所有使用以下关键词之一的论文:{标准误差,t统计量,p值}。接下来,他们阅读每一项研究的标题和摘要,并排除(i)现场或实验室实验,(ii)回顾论文和讨论,(iii)方法论文(例如,Larcker和Rusticus, 2010)和(iv)仅使用理论模型的论文。最后筛选了1417个实证研究的样本。
2.1.2.描述性结果
图1描绘了会计研究中实证方法的演变趋势,并显示了使用准自然实验方法的研究显著上升的趋势。这一趋势在所有三种会计期刊中都是相同的。图B显示,2013年在JAR和JAE发表的论文比例显著上升,在JAR (JAE)在2015年(2018年)达到峰值。这一趋势在TAR上也在稳步上升,尽管与其他两种期刊相比似乎有些减弱。图2显示,绝大多数使用准自然实验方法进行因果推理的论文采用了DID设计,其次是工具变量设计和断点回归设计。图3的A组显示,绝大多数论文研究的是政策监管制度(外生影响),其次是行业或国家层面的经济冲击(例如,2008年的金融危机)、法院案件(例如,最高法院的判决)、指数构成(Russell, 2000)、分析师经纪公司关闭和自然灾害(例如,天气变化和死亡)。
2.2.评述
在一个贝叶斯学习框架中,读者的先验是由证据塑造的(Glaeser和Guay, 2017;Christensen,2019)。如果一个特定的理论没有证据存在,那么读者的先验就会分散,当有新的证据出现时,他会大量更新先前的信念。相反,如果一个特定理论存在50年的观察证据(例如,专利成本减少了自愿披露),那么读者可能有良好定义的先验,那将需要非常令人信服的证据以更高的证据标准更新他们的信念。建构的框架,即将一篇论文的贡献视为读者修改他们先前信念的程度清楚地表明一篇特定论文的证据标准取决于被研究现象的新颖性。图5说明了在被检验理论的新颖性和做出增量贡献所需的证据标准之间的权衡。大多数使用准实验方法的论文都属于右下象限,它们的贡献主要在于环境的新颖性或巧妙性,而不是潜在的概念性研究问题的新颖性。事实上,作者调查中的几项研究明确指出其的贡献在于使用准实验方法将推论从“关联”升级为“因果”。
03
准自然实验和因果推断路径
3.1.线性回归和遗漏变量的威胁
3.1.1.OLS的简要回顾
本文的研究发现绝大多数论文的一个共同特征是对面板数据使用线性回归(即OLS)来估计相关性。这些回归的一般形式是:
其中i表示截面单位(通常是一家公司),t表示时间序列数据(通常是一年或一个季度)。为了便于研究,文章假定截面单位是公司,时间序列单位为年度。许多研究将β的估计解释为x和y之间的“相关”、“关联”或“关系”。正如所有常见的计量经济学教科书所指出的那样(例如,Stock和Watson,2003;Angrist和Pischke,2008),如果标准OLS假设成立,那么OLS可以用来进行因果推理,β可以被解释为因果效应。OLS假设如下:
#1.给定解释变量组,残差项
条件分布的均值为0。
#2.解释变量和被解释变量xi,t,yi,t是独立且同分布的。
#3.样本中没有极端值。
3.1.2.遗漏变量偏差的简要回顾
在研究研究人员用来排除这种偏差的方法以及准实验方法在减轻这种偏差方面的潜在作用之前,事先了解上述偏差的来源和性质是重要的。假设真实的数据生成过程为:
但是,当作者估计方程(1)时,从回归中遗漏了变量
。因此,
的期望系数由下式给定:
后一项表示遗漏变量偏差。这个公式表明,要使OLS估计量偏差,遗漏变量
必须随被解释变量
(即
)和自变量
(
)而变化。如果任何一个条件都不成立,则不存在遗漏变量的偏差。
3.1.3.排除遗漏变量偏差的常用方法
(1)特定识别(Specific identification)。第一种方法,作者称之为“特定识别”,它使用理论(无论是非正式的直觉还是正式的经济模型)为手头的现象发展出可能令人信服的经济替代解释,并使用这些替代解释来指导对潜在的遗漏变量的寻找和测度以纳入回归中。例如,人们可能凭直觉认为“公司治理”是一个潜在遗漏变量,并在回归中包含了一个噪声度量(例如,分层董事会)。这种方法的好处是,它明确地确定了可证伪的替代经济解释,使研究人员能够设计更强大的检验来排除这些替代解释。这种方法的缺点是研究人员可能不会考虑一组详尽的备选方案。
(2)固定效应(Fixed effects)。第二种方法是在不确定特定相关的遗漏变量的情况下,试图剔除被忽略的变量。这种方法认识到未知的遗漏变量存在,且研究人员可能无法具体识别上述存在的现象,此方法寻求排除这些被省略变量,并不需要单独识别它们,最终来找出对正在研究的现象的任何替代性解释。实现这种方法的一种常见方法是在特定维度上包含一个固定效果的向量,该向量将吸收沿该维度惟一变化的任何已知或未知的遗漏变量。
(3)横截面交互(Cross-sectional interactions)。第三种方法使用理论(无论是非正式的直觉还是正式的经济模型)来确定数据中的一个集合或子样本,在这个集合或子样本中,
的边际效应被推断为特别显著,但其中被遗漏的相关变量的影响是相似的。在这种情况下,研究人员可估计一个“横截面交互作用”,以有效区分遗漏变量所带来的影响(详细的数理说明见原文,感兴趣的读者可以向作者索取全文翻译版)。
这一节有两个关键要点。首先,每种方法对数据生成过程做出了不同的理论假设,而这个过程实际上是未知的。由于数据生成过程未知,没有一种处理遗漏变量的方法是万灵药。在事先不了解具体的制度背景或样本的情况下,不可能以任何程度确定地说,一种方法明确地优于其他方法。其次,研究人员得出因果推论的能力取决于他们愿意做出的方法论假设,而这些假设通常是隐含的。幸运的是,经验方法并不是相互排斥的,论文经常使用上述所有方法来通过各种不同的检验进行三角推断。通过多种方法找到一致的结果,每种方法对数据生成过程做出不同的假设,加强了从任何单一方法获得的推断的可信性。
3.2.作为潜在方案的准自然实验
当代会计研究中越来越多使用的类似方法是寻求一种存在潜在因果效应,但不存在遗漏变量偏差的环境。这种方法(作者称之为“准实验”)的首要目标是在关键变量中找到一个复制“随机分配”实验理想的设置或样本。为了做到这一点,文献采用了一种被称为双重差分(DID)的方法。从技术上讲,DID方法只是对面板数据估计的OLS回归。这种技术之所以有它自己的名字,是因为它意味着一个特定的回归规范,而不是一般的形式。然而,重要的是DID估计方法符合了所有的OLS假设。DID规范有许多不同的风格。在每一种情况下,其想法都是使用面板数据来近似实验,在实验中,观察结果被分配给处理组和对照组,但同时也认识到分配在严格意义上可能不是随机的。作者简要了介绍三种类型的DID方法。
3.2.1.经典DID
以下是第一个经典DID模型:
在上述规范化设定中,如果企业i属于处理组,则xi是一个赋值为1的指示变量,如果处理后第t年发生,则Dt是一个赋值为1的指示变量。经典的DID设计的关键在于,所有观察都在同一时间点接受“处理处理”,因此处理后的时间段(或“时期后”)对所有观察都是相同的。这种设计最好用2 x 2的网格表示,其中每个单元格表示
的条件期望(或条件均值):
上述图表清楚地表明,β1反映了处置“处理”前两组之间的结果差异。如果观察结果真的被随机分配到处置组和对照组(即它们的分配不以观察结果的基本特征为条件),那么,在预期中,这种差异应该为零。然而,在实践中,分配很少是随机的,观察到两组在前期的差异并不罕见。认识到两组之间的差异(可能)存在于期前(pre-period),类似于之前描述的横断面作用,期前样本被用作安慰剂,以消除偏见,并消除可归因于非随机分配的结果差异。也就是说,DID设计的重点不是处置组和对照组之间的差异(或
的边际效应),而是处置后这种差异如何变化(即
的边际效应的差异)。这就是“DID”一词的来源:聚焦的重点是β2。
与横截面回归相似,DID设计中对因果推断的主要威胁不是一个随
变化而被忽略的变量。在假设遗漏变量的效果不随样本划分而变化(即不随Dt变化)的情况下,当Dt=0时,处理样本与对照样本之间的差异将捕获相关的省略变量偏差(即β1)。DID设计中对推论的主要威胁是一个被忽略的相关变量,其效果随Dt的变化而变化。因为在DID规范中,分组变量Dt基于时间单位,这被称为“平行趋势假设”。换句话说,要使DID估计量偏倚,被遗漏的相关变量不仅必须随处理组和对照组变化(即随
变化),而且其效果也必须随时间变化(即随Dt变化)。如果它的效果不随时间变化,那么它只会在每个时间段使处理组和对照组之间产生恒定的差异(由β1所捕获),处理组和对照组之间的结果变量的时间序列趋势将是平行的(Roberts 和Whited ,2013)。
3.2.2.扩展
接下来文章简要讨论会计文献中经典DID设计的两个最流行的扩展。第一个扩展是“通用的”DID设计:
与经典设计相比,该设计的显著特征是,它既包括固定效应(公司i)和时间固定效应(年度t),控制处理组和对照组之间的固定差异(固定效应吸收了处理组的主效应),又控制了任何共同的时间趋势(年度固定效应吸收了Dt主效应)。参见Hansen(2007)、Angrist和Pischke(2008)了解该设计的详细信息。
第二个扩展是“交错采用”DID设计:
这种设计相对于广义设计的显著特点是,每个公司(或第i个单位)都有自己的Di,t值。也就是说,以前Dt对给定年份的所有观测值取一个共同的值,而现在Dt在不同公司之间是不同的。在经典和广义设计中,如果在2003年作为区分组就那些处置,则在2003年之后的所有观察中Dt=1。相反,交错采用的设计允许每个单元在不同的时间点接受处置。
3.3.理论对因果推断的重要性
3.3.1.理论对于解释经验事实的重要性
从观测数据中得出因果推论需要一个健全的、定义明确的理论。理论为预测和解释估计的相关性提供了一个框架。在缺乏理论的情况下,相关性没有任何经济意义。相关性可能具有统计学意义,因为两个变量可能会共同作用,但要解释这种共同作用需要一种理论。事实上,Heckman(2005)提出,实证研究人员在寻求得出因果推断时面临的前两项任务是:(i)使用理论描述一个假设世界,(ii)确定这个假设世界中的因果路径(另见Heckman和Vytlacil, 2007)。
理论还可以告诉作者正在研究的理论建构的内在性质。事实上,科学过程的前提是这样一种想法:研究人员从一个理论开始,检验这个理论,根据检验结果改进这个理论,改进的理论导致新的和更精确的检验。这一过程突出了理论在因果推理和更广泛的科学探究中不可或缺的作用和构成。如图6中的科学过程所表明的那样,得出因果推论的过程不是关于随机的,或似随机的变化本身,而是关于排除替代解释(例如,Kahn和Whited,2018)。因此,理论不仅对因果推理有价值,更精确的理论更有价值。随着基础理论精确度的提高,研究人员可以更好地表达(和检验)多种预测,排除其他解释,这增加了结果推断的可信度。
3.3.3.用理论将虚假关系(spurious relations)从因果关系中分离出来
在进行推断时忽略理论的危险在于,研究人员将无法区分虚假的推论。这些研究基于随机相关性,从因果推论中没有特殊意义。作为理解忽视理论的危险的起点,重要的是要明白相关性本身并不能揭示真相。数据中存在虚假的相关性。例如,Vigen(2015)表明(i)上吊、勒死和窒息自杀与美国在科学上的投入;(ii)每年淹死的人数和尼古拉斯·凯奇出演的电影数量;(iii)美国小姐选美冠军的年龄和被热饮杀死的人数;(iv)土木工程博士的人数和马苏里拉奶酪的消费量都是高度相关的。
理论(即经济直觉)告诉作者,这些相关性显然是荒谬的,因此作者应该谨慎地以因果关系的方式解释它们。作者可能不愿意相信因果关系的存在,因为作者没有令人信服的理论将美国小姐的年龄与热饮谋杀联系起来。或者,作者可能会忽略潜在理论基础的缺乏,并持怀疑态度,因为数据是双变量相关的,只有当它们是更复杂的计量经济学技术的结果时,作者可能愿意以因果的方式解释这些经验事实。
然而,即使使用更复杂的计量经济学技术(Brodeur等,2020)也可能存在假相关性,这表明文献中经常报道的常见稳健性检验往往不足以排除假相关性。例如,Brown等(2015)的一项方法论严谨的研究旨在表明,各州法律的交错出台,禁止开车时发短信,减少了个人的信息搜索活动,降低了市场流动性。尽管使用了最先进的计量经济学方法(例如,具有高维固定效应的交错DID设计)和跨多个不同场景的三角测量结果,但其中一名作者(White和Webb,2021)的一篇后续论文对Brown等(2015)的推论提出了质疑。
3.4.理论对于一般化的重要性
概括性的过程是指将从单个经验检验(或一组检验)中获得的推论外推到样本之外的情况,并最终推到被检验的基础理论。一方面,如果研究没有理论基础,那么就没有基础可以概括出背景之外的推论。另一方面,如果实证研究在特定环境下密切跟踪和检验一个普遍理论,作者有充分的理由相信,从该环境的推论将会推广。因此,能否在特定的背景下归纳出自己的推论,关键取决于论文理论基础的强度。如果理论没有说服力,那么推论必然会局限于程式化的设定。
对于研究程式化背景的研究,对可普遍性的担忧尤其严重,在这些研究中,背景本身没有内在的兴趣,而是被专门用作特定理论结构中似随机变化的来源(Leuz和Wysocki,2016;Glaeser Guay,2017;Leuz, 2018)。然而,当设定本身具有内在的吸引力时,从程式化设置中得出的推论可以做出有价值的贡献,即使它们不能被一般化(Christensen,2019)。在本节中,作者使用一系列的例子来说明两点:(i)对可普适化的的关注取决于研究的目标,(ii)在会计研究人员不感兴趣的背景下,许多论文的贡献往往隐含地依赖于研究人员在研究中检查的背景之外进行泛化的能力。(具体内容见原文例子)
此处文章提供了关于推广推论的适当性的实用指导,以及人们可以用来减轻对可普遍性的担忧的技术。首先,先前的文献使用了两种技术来解决对可普遍性的担忧。第一种方法是明确承认研究结果可能无法在样本外推广,并说明在特定的研究问题或感兴趣的背景下,可推广性不太值得关注(Jagolinzer等,2020)。第二种方法是研究在同一研究问题的背景下分析多个设定。例如,Hail等(2014)通过多个准实验研究了信息不对称与股利支付之间的关系;Guay等(2016)利用在Compustat总体上估计的标准面板数据技术和多个准实验研究了财务报表复杂性和自愿披露之间的关系(Duguay等,2020;Samuels等,2021)。
其次,在先前的文献中建立一个特定环境的结果可以推广到多个环境,这可能是一个贡献。仅仅因为一个结果存在于一个特定的环境中,甚至存在于先前工作中的多个环境中(例如,强制披露质量改善了流动性),并不意味着该结果可以推广到所有环境中(如一个特定的监管变化)。例如,国际财务报告准则文献早就认识到,在欧盟采用国际财务报告准则的效果并不一定推广到在其他环境中采用国际财务报告准则的效果(Christensen等,2016;Glaeser 和 Guay,2017)。确定先前研究中的推论是否可以推广到其他情况通常是一个重要的贡献。这就是研究高度程式化的场景的好处和坏处:从制度上讲,没有两个场景是完全相同的,人们既不能从它们中进行概括,也不能对它们进行概括。
会计文献中围绕准实验的实施问题
04
4.1.固定效应潜在的缺点
4.1.1.加剧遗漏变量偏差的潜在性
首先,固定效应只消除组间的差异,而不消除组内的差异。如果组内变量是与被省略变量相关的来源,那么包含组固定效应将孤立该变量(即删除所有其他变量),这将放大与被省略变量的相关性,并加剧被忽略变量的偏差。因此,固定效应设计中的一个隐含假设是,相关遗漏变量的数据生成过程不会导致组内的显著变化。如果被遗漏的相关变量在组内有显著的变化,那么组内分析可能比集合(跨组)分析更有偏见。
如果不了解潜在的数据生成过程,或者没有一个表明变化来源的精确理论,就很难知道是包括还是排除一组特定的固定效应。因此,考虑到发现结果可能存在的偏差,鼓励包含固定效应(而不是“默认地”包括它们)和评估结果对其他固定效应结构的稳健性是有用的。
4.1.2.增加结果脆弱性的潜在趋势
当高维固定效应在有吸引力的自变量中吸收了极高水平的变化(例如,99%)时,用于估计重要系数的剩余变化可能只依赖于少量的观察结果,即使有数十万或数百万的观察结果。因此,回归中观察值的数量可能会对用于估计感兴趣系数的变异量产生误导(例如,deHaan, 2020)。它也会产生多重共线性问题。在极端情况下,当吸收率增加到100%时,关键的自变量接近固定效应的线性组合,在极端情况下,回归不可估计,完全共线。多重共线性的问题是众所周知的,在标准的计量经济学文献中(Belsley等,1980)也有涉及:回归结果是脆弱的,系数估计可能根据所包含变量和样本组成中的小扰动而大幅波动(朝任何方向)。文章使用Armstrong等(2019,AGHT)的数据来说明这一点。
总而言之,固定效应可以成为一个强大的工具,以减轻对相关的遗漏变量的担忧。然而,就像每一个研究设计选择一样,固定效应并非没有权衡(效果下降),因此,就像所有控制变量一样,应该有明确的动机。作者认为这些极端的吸收水平是相当普遍的,并鼓励使用高维固定效应的研究人员(1)对不同固定效应结构的结果进行三角测量,(2)报告他们感兴趣的变量的方差膨胀因子,以及(3)报告被固定效应吸收的相关变量的变化量(例如来自固定效应的自变量回归的
)。
当研究人员不知道真实的数据生成过程,并发现经验结果关键取决于固定效应的选择时,一个常见的实际问题出现了:在极端情况下,关键变量的系数在不同的固定效应之间翻转符号。在这里,作者提出两个相关的观点。(1)证实研究者预测的规范不一定是正确的规范。研究人员应该意识到并警惕确认偏差的可能性;(2)符号翻转和其他敏感性应该是值得研究的东西,它们可能会导致新的预测,而不是被否定。作者提出了两种常见的诊断检验方法——变异膨胀系数和来自固定效应自变量回归的
,用于评估特定固定效应是否有问题。有了这些诊断检验,研究人员应该能够更好地证明和评估他们的研究设计选择,因为它与固定效应有关。
05
非实验证据能促进因果推断吗?
5.1.当准实验不实际时,非实验证据的作用
因果问题的数量是无限的,但准实验情境的数量却是有限的。对于许多因果问题,在处理组和对照组之间模拟随机分配的设置是不可用的。因此,研究人员面临着选择。一方面,研究人员可以将他们的注意力限制在一组似乎可以随机分配的问题上。这种方法支持这样一种信念,即在缺乏实验或准实验理念的情况下,因果关系问题不值得探讨。用Angrist和Pischke(2008)的话来说,也许反映了这一点:“不能用任何实验回答的研究问题是根本不明的问题”。从哲学的角度来看,将对问题的考虑限制在那些可以用实验或准实验回答的问题上是有好处的。可以想象的是,它将注意力限制在那些可以用最低限度的标准精度回答的问题上。这种方法的折衷之处在于,必然会将文献限制在可获得准实验设置的因果问题集上。因此,相关文献可能会错过重要的发展机会。
另一方面,即使没有模拟随机分配的设置,研究人员也可以探索因果问题。采用这种方法的研究人员可能寻求提供“符合”或“暗示”因果关系的证据,但这不是决定性的。这种方法认识到作者知识的临时性(即,学习的过程是一个持续的努力),以及非实验方法和数据的固有局限性。这种方法的危险在于,可能很难排除其他解释。
Heckman和Singer(2017)将通过三角测量进行识别的概念称为学习的“溯因”模型,并讨论了为什么在标准计量经济学教科书中找不到这种因果推断的方法:
从数据中学习的溯因模型更接近夏洛克·福尔摩斯的方法,而不是教科书上的计量经济学方法。夏洛克·福尔摩斯的方法使用了许多不同的可信度的线索,对它们进行加权,把它们放在一起,然后讲述一个可信的故事。实证经济学的溯因方法提倡一种过程和一种心态。只要分析师提供的有用知识能够经受住公众的严格监督,它就不会对了解经济的数据来源、研究风格或推理模式给予任何特权。它重视丰富事实的描述作为主要的知识来源。它喜欢使用每一条可用的信息,尽管部分信息的可信度各不相同。然而,它要求分析师以公开的方式报告他们如何权衡各种证据。它鼓励这类研究的读者形成自己的观点,并证明自己的权重。它承认知识的临时性……思维的溯因模式挑战了目前颇具影响力的"识别问题"框架(它是处理效果和结构方法的基础)。(p.298-299)
图11试图以图形方式说明Heckman和Singer(2017)所称的因果推理的“溯因”和“处理效应”方法之间的区别。这张图说明了溯因方法,研究人员对X和Y之间的因果关系感兴趣,并阐明了由Z1、Z2和Z3表示的替代解释。请注意,这些替代方案可以是统计的(如测量误差)或经济的(如替代理论机制)。研究人员的任务是进行一系列检验,试图排除这些解释。这就使得作者可以对3.1.3节中所描述的遗漏变量使用“特定识别”方法。引用歇洛克·福尔摩斯的话:“当你排除了一切不可能,剩下的,无论多么不可能,一定是真相”(柯南·道尔,1890,《四签名》)。
5.2.结合准实验和非实验证据来确定因果机制
此处文章讨论如何结合准实验和非实验证据来确定文献中的因果机制。作者遵循Kahn和Whited(2018)的观点,在因果推理的背景下对“估计”和“识别”进行了区分。这一区别是重要的,因为因果效应的估计是一个包含似随机变化的统计过程,而识别则涉及对潜在因果效应来源的推断。成功的估计回答了这个问题:效果是什么?成功的识别回答了这个问题:为什么会有这种效果?作者在图12中说明了这一区别。
在因果链的每一个环节都没有随机变化的情况下,人们可以将非实验方法与准实验方法相结合,努力通过三角推断来估计因果效应,同时提供与特定渠道一致(但不是确定的)的证据。在实践中,如果用于划分样本和估计因果效应的横截面差异的变量本身是内生的,那么检验就固有地背离了实验理想(例如,众所周知,通过内生变量进行划分或与内生变量相互作用会引入偏差;Wooldridge,2000)。尽管如此,尽管划分变量具有内生性质,但这些检验可以在概念上促进因果机制的识别,并在文献中普遍使用。作者简要讨论了两项对样本进行内生性变量划分以提供因果机制证据的开创性研究。
5.3.当准实验和非实验证据发生冲突时
文章用一个从审计文献中提取的简单例子来说明证据冲突的可能性,以及当来自不同方法的证据发生冲突时,驳回来自任何一种方法的推论的危险。孤立地考虑任何一种方法都会提供往好了说是不完整的,往坏了说是误导的推论。在这个例子中,作者讨论了各种类型的证据组合对于充分理解现实世界的现象是如何必要的,以及如何避免对一种类型的证据的严格偏爱。
管理者经常采取特定的行动,其明确的目的是沟通或“传递”他们的私人信息。在会计文献中,信号是一个普遍存在的现象,它起源于Spence(1978)的信号理论。在会计文献中,信号被用来解释自愿披露(Trueman,1986)、会计选择(Myers,1989)、股息支付(DeAngelo等,1996)、内部股票购买(Armstrong等,2021a,b)和企业社会责任(Lys等,2015)等方面的模式。作者的例子来自有关获得审计的信号价值的文献(Kausar等,2016)。
考虑审计是否影响公司价值的问题。要回答这个问题,可以研究公司可以选择获得审计的环境。在这种情况下,审计可以通过两个可能的渠道影响公司价值(Minnis,2011;Kausar等,2016)。首先,公司可以选择特定的审计师向投资者发出有关未来现金流的积极私人信息。作者称之为“信号机制”。第二,审计师的选择可以对投资水平和公司现金流产生真正的影响,而不依赖于信号。作者将其称为“真实效应”机制(Roychowdhury等,2019)。图13的面板A说明了这两个机制。作者从几项研究的结合中学到的东西比从单独的每一项研究中学到的要多。实际上,当研究人员试图评估如何调和或消除来自非实验和准实验环境的相互矛盾的证据时,作者建议他们考虑在这两种环境中是否有不同的经济力量在起作用。
结论
06
可靠的因果识别需要令人信服的经济理论,形成与被研究的制度背景相一致的假设的方法,以及大量的稳健性检验,以多场景的(通常是隐式的)理论假设进行三角推断。尽管学者们尽了最大的努力,有时他们还是找不到准实验,在这种情况下,使用非实验方法并附带适当的说明提供证据是可以接受的,甚至是可取的。本文作者认为以下的一种想法需要警惕:人们应该将注意力限制在那些有利于准实验方法设置的因果问题上,也指出不要对任何方法的进行教条主义式的应用。不管研究人员是否使用准实验方法,因为真实的数据生成过程是未知的,可推广的因果推论必然需要使用不止一个回归规范,以及对特定理论结构的多个度量。尽管作者的综述关注的是会计研究人员用来得出因果推论的方法,但本文的研究至少有三个重要的启示意义。
(1)如果实证结果不可重复,则方法和(背景)设定的选择无关(Hail 等,2020)。可复制性是任何可信科学工作的最低质量标准。从某种意义上说,一项执行不佳但可复制的研究比一项看似执行良好但不可复制的研究提供了更多的信息,为未来的工作提供了更大的基础。Angrist和Pischke(2010)将准实验的使用称为因果推理中的“可信度革命”。然而,没有可复制性,就没有可信性。
(2)在整个研究评述中,作者鼓励多种形式、设定和方法来确保报告结果的透明度。在提出这些建议时,作者假设研究人员、审稿人和编辑对报告无效结果和报告积极结果一样满意:透明度的激励大于选择性报告的激励。然而,许多学者观察到了相反的情况(Brodeur等,2016;Ohlson,2022)。统计学(Gelman和Loken,2014、2017)、心理学(Simmons等,2011)、自然科学(Smalldino和McElreath,2016)和经济学(Brodeur等,2020)的几项研究都记录了研究人员寻找积极结果和发表论文的动机如何通过选择性报告或研究设计选择的事后论证扭曲因果推断。这些问题并不容易解决,也超出了作者的审议范围。然而,当试图从已发表的研究中得出因果推论时,它们是最重要的。
(3)会计文献中的许多论文并不寻求解决因果问题,但仍然做出了重要贡献。例如,越来越多的学术研究由“司法鉴证研究”组成,这些研究试图记录与资本市场中可疑而非完全非法的行为相一致的数据模式。虽然这类研究超出了本文研究的范围,而且最终只是描述性的,但它们在吸引人们注意数据中的模式和结构方面发挥了重要作用,这些模式在最好的情况下是与良好的公司治理不一致的,在最坏的情况下是违反证券法的证据。这一系列的工作表明,虽然因果推理很重要,但对于提供理论贡献和推进知识进步和发展并不总是必要的。
Abstract
This paper reviews the empirical methods used in the accounting literature to draw causal inferences. Recent years have seen a burgeoning growth in the use of methods that seek to exploit as-if random variation in observational settings-i.e., “quasi-experiments.” We provide a synthesis of the major assumptions of these methods, discuss several practical considerations relevant to the application of these methods in the accounting literature, and provide a framework for thinking about whether and when quasi-experimental and non-experimental methods are well-suited for addressing causal questions of interest to accounting researchers. While there is growing interest in addressing causal questions within the literature, we caution against the idea that one should restrict attention to only those causal questions for which there are quasi-experiments. We offer a complementary approach for addressing causal questions that does not rely on the availability of a quasiexperiment, but rather relies on a combination of economic theory, developing and falsifying alternative explanations, triangulating results across multiple settings, measures, and research designs, and caveating results where appropriate.
推文作者:许宇鹏,上海财经大学
联系邮箱:xyp218318@163.com
文章中大量计量领域技术性的细节均未体现,但不影响文章整体阅读,如有不当之处,欢迎读者交流指正。
转自:“香樟经济学术圈”微信公众号
如有侵权,请联系本站删除!