郭峰 陶旭辉|机器学习与社会科学中的因果关系:一个文献综述
2023/6/29 8:48:57 阅读:130 发布者:
以下文章来源于经济学季刊 ,作者郭峰 陶旭辉
本文载于《经济学》(季刊)2023年第23卷第1期,作者为上海财经大学公共经济与管理学院郭峰、上海财经大学公共经济与管理学院博士研究生陶旭辉。
随着互联网、电子技术等对我们生产生活的日益渗透,社会科学研究中,数据来源越来越丰富,文本、图像、音频、视频、遥感等大数据都成为社会科学研究者的重要数据来源。而伴随着大数据的大规模应用,擅长处理这种大数据的机器学习方法必将成为社会科学家工具箱的重要组成。
而在经济学等各类社会科学研究中,识别因果关系已经成了重中之重。然而,在进行数据预测中,仅仅知道变量之间存在相关关系就已经足够,而因果关系并不是必须的。因此,很多机器学习算法也就忽略了变量间的因果关系,而只关心结果变量和特征变量之间是否存在相关关系,这造成了机器学习与社会科学主流实证方法之间存在一定的隔阂。但机器学习方法与因果关系识别之间并不全然是冲突的。机器学习方法凭借其自身优势,对因果关系识别有着非常重要的价值。一些文献已经开始应用机器学习方法来帮助识别因果。但在社会科学领域,进行因果关系识别时使用机器学习方法的文献还相对较少。因此,我们试图聚焦于社会科学领域,对机器学习方法在因果关系识别中能起到的作用,以及其给因果关系识别带来的新挑战,进行一个文献综述,以期丰富社会科学研究者的工具箱和思想库。
当前,各种因果识别方法在社会科学实证实践中扮演了越来越重要的角色。但越是如此,越能发现这些方法在实践中存在各种使用局限,这使得我们越发觉得,向社会科学研究者展示和总结如何利用机器学习方法更好地进行因果识别,拓展因果识别的适用边界,并结合具体案例勾勒利用机器学习方法进行因果识别的步骤,会给研究者提供更多的灵感。更为重要的是,我们在综述文献时深刻体会到,机器学习对因果识别的意义并不仅仅是提供新数据和新方法,还可以帮助社会科学家发现新问题。
根据我们的综述,凭借其在处理非结构化数据、非线性关系上的优势和在预测、分类等问题上取得的成功,机器学习可以在以下几个方面,对社会科学家看重的因果识别提供助力:更好地识别和控制混淆因素,更好地构建对照组,更好地识别异质性因果效应,以及更好地保证因果关系的外部有效性。当然,随着大数据和机器学习的广泛应用,社会科学中的因果识别也面临一些挑战,具体而言,因果关系在某些情形下变得不再重要,大数据和机器学习也会让因果效应识别更加困难,以及部分机器学习算法更是缺乏可解释性。
随着机器学习方法在社会科学定量分析中的大规模应用,我们重新思考了Angrist and Pischke(2009)提出的“方法是否有必要如此复杂”,以及“它们是否是有害”这两个问题。
关于社会科学领域的因果推断,其“根本问题”是个体的“反事实”状态无法同时观察到。因此,为处理组找到“可比”的对照组,传统的社会科学实证分析工具,从控制变量到固定效应回归,从工具变量、双重差分、倾向得分匹配、合成控制、断点回归等时髦的新方法,到随机干预试验等,无一不是向寻找“可比”对象靠近的过程。这些方法都有其科学性,但在某些特殊情形下,又存在一定的局限。当那些近乎苛刻的条件无法满足时,使用这种方法得出的结论可能就与真理更加背道而驰了。而机器学习可以帮助我们获得一个更为置信和稳健的结论;可以在一些非结构化、高维的大数据和领域中发掘出一些有价值的新问题;可以在传统方法因假设无法满足而失效时依然有方法可以备选;可以让我们的结论在样本外也有预测能力;可以帮助制定最优的政策设定以实现收益-成本最大化;帮助我们从更细微的维度了解每一个人的处理效应;等等。因此,虽然机器学习对社会科学来说是一个全新的领域和全新分析工具,说其复杂也并不为过,但是如果结合机器学习能够帮助这个学科进一步靠近真理,将是非常值得尝试和进一步探索的工作。
当然,对于其是否有害的问题,我们认为倘若我们过分地追求机器学习方法,也可能会与社会科学目标相悖。社会科学的目标是能够回答一个实质性的问题,提升人们对社会状况的理解,最终带来理论上的进步。如果过分关注机器学习的预测能力而忽视社会科学的解释功能,无疑也会本末倒置。我们应该如何处理大数据、机器学习和因果推断的关系,本文认为应该如Grimmer(2015)倡导的,我们首先是一个社会科学家,其次才是一个数据分析人员,我们只是在利用大数据和机器学习的工具,来帮助我们更好地理解这个社会。
作者简介
郭峰,上海财经大学公共经济与管理学院讲席副教授、博士生导师,主要研究领域包括数字经济与数字金融、机器学习与大数据分析、公共经济学等范畴。目前已在《经济研究》、《管理世界》、《经济学》(季刊)、《管理科学学报》,以及Journal of Economic Behavior & Organization,China Economic Review等国内外期刊上发表学术论文50余篇。
陶旭辉,上海财经大学公共经济与管理学院博士研究生,主要研究领域为社会保障与区域经济、机器学习与公共政策评估方法。目前已在《经济研究》、《管理世界》、《经济学》(季刊)等期刊上发表论文多篇。
转自:“经管学术联盟”微信公众号
如有侵权,请联系本站删除!