导语:计算社会科学不仅仅是庞大的数字数据存储库以及构建和分析这些数据所需的计算方法。它也代表了不同领域的融合,以不同的方式思考和研究科学。本文的目的是为该领域的研究方法提供区分的标准以及如何有效的整合这些方法。
关键词:计算社会科学 建模 预测
文章题目
Integrating explanation and prediction in computational social science
文章地址
https://doi.org/10.1038/s41586-021-03659-0
期刊介绍
Nature,是世界上历史悠久的、最有名望的科学杂志之一,首版于1869年11月4日。影响因子69.504。
作者介绍
Jake M. Hofman:他的研究方向包括社交媒体分析、计算社会科学、机器学习、数据科学等,h-index27
D. Watts:主要从事网络科学、社交网络分析、复杂系统等方面的研究。他曾在美国哥伦比亚大学任教授、微软研究院担任高级研究员,并担任多个学术期刊的编辑。h-index61
Jon Kleinberg:计算机科学家,研究领域包括算法设计和分析、网络科学、社交网络分析等。美国国家科学院、美国工程院、美国艺术与科学学院的院士,h-index109。
Susan Athey:经济学家和数据科学家,斯坦福大学商学院和计算机科学系。研究方向,计算广告、在线广告拍卖、搜索广告、定价策略和互联网搜索等领域。荣誉:2019年诺贝尔经济学奖。h-index64。
在过去的15年里,社会科学经历了一场仍在展开的“计算革命”的开端。在某种程度上,这场革命是由互联网技术革命推动的。互联网技术革命有效地将数十亿人的社会、经济、政治和文化活动数字化,由此产生了海量的数字数据。在某种程度上,它是由计算机科学的方法和实践的涌入所推动的,这些方法和实践需要处理新的数据类别,如搜索和社交媒体数据,这些数据往往比传统的社会科学数据(例如调查和实验室实验)更嘈杂,更无结构化,更少“设计”。这种双重过程的一个明显而重要的结果是出现了一个新的领域,现在被称为计算社会科学,它引起了社会科学家和计算机科学家的极大兴趣。
然而,我们在本文中讨论的是,另一个不那么明显,但可能更重要事情——社会科学家和计算机科学家的认知价值之间的矛盾。一方面,社会科学家传统上优先考虑对个人和集体的人类行为提出令人满意的解释,经常援引来自实体理论的因果机制。另一方面,计算机科学家传统上更关心开发准确的预测模型,不管它们是否符合因果机制,甚至是否可以解释。
反过来,这些不同的价值观导致社会和计算机科学家彼此偏好不同的方法,并援引不同的证据标准。例如,社会科学中的定量方法旨在识别因果关系或获得理论上有趣参数的无偏估计,而机器学习方法通常旨在最大限度地减少尚未见过的数据的总误差。因此,社会科学家的标准做法是完全“样本内”拟合他们的模型,因为他们试图解释社会过程,而不是预测结果,而对于计算机科学家来说,对“held out”数据的评估是必要的。此外,计算机科学家通常允许模型的复杂性增加,只要它能继续提高预测性能,而对社会科学家来说,模型应该建立在实质性理论的基础上,因此受到实质性理论的约束。
这两种方法在各自的条件下都是站得住脚的,并且都产生了大量的、富有成效的科学文献;然而,这两种方法也都受到了批评。一方面,理论驱动的经验社会科学因产生的发现无法复制、无法推广、无法预测感兴趣的结果、无法为现实世界的问题提供解决方案而受到批评。另一方面,复杂的预测模型也因不能泛化、不可解释和有偏见而受到批评。与此同时,挖掘足够大的数据集的能力将导致“理论终结”的夸张说法已被广泛抨击。
在承认这些批评的合法性的同时,我们怎样才能继续从几十年来对这两个经典传统的思考和方法论发展中获益?与此相关的是,社会科学家和计算机科学家如何建设性地调和他们不同的认知价值,以产生双方都同意的新方法和证据标准?
根据他们的方法相对强调预测或解释,我们设计了一个概念框架,对方法进行分类。除了澄清预测模型和解释模型之间的区别之外,该框架还揭示了目前罕见的将两者结合在一起的方法。其次,我们提出了一系列建议,我们希望这些建议能带来更多我们所说的综合建模。此外,我们主张对个人贡献的解释和预测能力进行更清晰的标记,并认为科学的实践应该在计算科学和社会科学之间进行标准化。
总之,我们得出的结论是,虽然专门的解释性或预测性方法可以并且确实有助于我们对现象的理解,对某一现象的理解,应该从这两方面进行评估。解释模型的预测能力可以帮助我们优先考虑因果关系,我们调查和量化它们实际解释的程度,并可能揭示我们对现象理解的局限性。关注解释性可以将我们的注意力集中在最重要的预测问题上,并鼓励我们建立更强大的模型,以便在干预和变化下更好地推广。因此,认真对待解释和预测可能需要研究人员在认识论上保持谦逊,但这将推动计算科学和社会科学交叉领域的工作。
预测与解释-一些失败的例子
例如,一些研究使用零假设显著性检验(NHST),由于使用特定的数据,可能会试图拒绝零假设,如求职者的种族对他们被雇用的前景没有影响,或者一个国家内的种族或宗教分歧对发生内战的可能性没有影响。
此外,纯粹的预测实验也有混淆预测和解释的风险。利用统计关联来预测结果的预测模型,有时看起来非常准确,可以给人一种已经理解了一种现象的感觉。但是,他们往往(有时是隐含地)依赖于这样一种假设,即这些预测只能在预测者与感兴趣的结果之间的关系稳定的情况下进行评估。例如,某一特定地理区域的流感相关搜索查询量与两周后报告的美国疾病控制中心(CDC)的病例量数据高度相关(r = 0.9),这一发现似乎令人印象深刻,直到人们发现,仅仅通过使用前几周的病例数来预测未来几周的病例数,就可以直接获得同CDC的数据同样的相关性。因此,一个特定的模型是否被认为是有价值的,不仅取决于它的绝对性能,还取决于它与适当基线的比较。
表1 ,沿着两个维度组织经验模型的示意图,代表了对预测和解释的不同重视程度
_
没有干预或分配变化
在干预或分配变化下
专注于特定的特征或效果
象限1:描述性建模描述过去或现在的情况(但既不是因果关系也不是预测性的)
象限2:解释性建模估计改变情况的影响(但许多影响很小)
专注于预测结果
象限3:预测建模对未来类似情况的预测结果(但可能因变化而中断)
象限4:综合建模预测结果并估计尚未见过的情况的影响
正如这些例子所说明的那样,解释和预测之间的关系在实践中往往是模糊的,并且可能导致对任何特定研究活动所满足的目标的混淆。我们提出了表1所示的概念框架。表的两个维度分别代表了对解释和预测的不同重视程度,其中我们将空间划分为四个象限:描述性建模、解释性建模、预测建模和综合建模,描述性建模(象限1)指的是任何科学努力的基础活动:如何思考、定义、测量、收集和描述感兴趣的数量之间的关系。这一象限的活动包括传统的统计和调查研究,以及网络中的主题建模和社区检测等计算方法。例如,人们对公众舆论、经济状况和日常生活经验的了解大多来自调查研究,无论是由劳工统计局等联邦统计机构还是皮尤研究中心等研究组织进行的。行政数据的统计分析也常常是描述性的。例如,最近的研究记录了不同种族和族裔群体在死亡率、贫富差距和代际经济流动性方面的重大差异。在社会学、传播学和人类学中流行的定性和比较方法也属于这一象限。最后,迄今为止,计算社会科学的大部分进展都是利用数字信号和平台来研究以前无法测量的概念。换句话说,描述性的工作,无论是定性的还是定量的,本身都是有用和有趣的,也是在其他三个象限中进行的活动的基础。
解释性建模(象限2)指的是其目标是识别和估计因果关系,但不直接关注预测结果的活动。大多数传统的经验社会学、政治学、经济学和心理学都属于这个象限,它包含了广泛的方法,包括观测数据的统计建模、实验室实验、现场实验和定性方法。
一些方法(例如,在随机或自然实验中,或非实验识别策略,如工具变量和回归不连续设计)通过设计隔离因果效应,而其他方法(例如,回归建模,定性数据)则基于理论调用因果解释。无论如何,这个象限中的方法倾向于优先考虑简单性,只考虑可能影响感兴趣的结果的一个或几个特性。我们强调,这些方法对于理解个体因果关系、形成理论模型、甚至指导政策都非常有用。例如,实地实验表明,拥有“黑人”名字的求职者比拥有“白人”名字的求职者更不可能获得面试机会。这揭示了结构性种族主义的存在,并为有关性别、种族和其他受保护属性的歧视的公共辩论提供了信息。与此相关,量化难以评估的影响,如性别和种族多样性对警务的影响,可以激发具体的政策干预。
尽管如此,强调孤立地研究影响可能会导致很少(如果有的话)关注预测的准确性。由于许多影响很小,并且简单的模型可能无法包含与所研究结果相关的更广泛的特征集,因此这些方法的预测性能相对较差。
预测建模(象限3)是指试图直接预测感兴趣的结果,但不明确关注因果关系的识别的活动。这个象限中的“预测”可能是关于未来的实际事件,也可能不是;然而,与象限1和2相反,它专门指“样本外”预测,这意味着评估模型的数据(保留或测试数据)与估计模型的数据(训练数据)不同。这一象限的活动包括时间序列建模、预测竞赛和许多监督机器学习,范围从简单的线性回归到复杂的人工神经网络。通过在测试集上评估性能,这些方法的重点是产生能够很好地推广到未来观察结果的预测。从政策的角度来看,对未来事件进行高质量的预测是有帮助的,即使这些预测在本质上不是因果关系。例如,机器学习对人类行为的应用在在线广告和推荐系统中比比皆是,但也可以在社交媒体的早期轨迹中检测到潜在的病毒式传播内容。尽管这些算法不能确定是什么导致人们点击或内容传播,但它们仍然可以为决策者提供有用的输入——例如,提醒人类审查人员检查潜在的大规模有害错误信息。也就是说,通常有一个隐含的假设,即用于训练和测试模型的数据来自相同的数据生成过程,类似于在静态(尽管可能嘈杂)的世界中进行预测。因此,虽然这些方法通常适用于固定的数据分布,但它们可能不适用于特征或输入被积极操纵的设置(如在受控实验或政策变化中)或由于其他不受控制的因素而变化的设置。
综合建模(象限4)指的是试图根据因果关系预测尚未见过的结果的活动。更具体地说,象限3关注的是样本外的数据,但仍然来自相同的(统计)分布,这里的重点是将“分布外”推广到可能自然变化的情况,由于一些我们无法控制的因素,或者由于一些故意干预,如实验或政策变化。这一类包括我们之前观察到的设置的分布变化(即,将输入特征设置为特定值,而不是简单地观察它处于该值)以及全新情况的更极端情况(即,将输入特征设置为我们从未见过的全新值)。因此,综合建模需要关注象限2,关注对因果效应的估计,而不是简单的关联效应,同时考虑所有这些效应的影响,以尽可能准确地预测结果(即象限3)。理想情况下,该象限的工作将在(潜在)变化的世界中产生关于未来结果的高质量预测。然而,强迫一个人的解释做出预测可以揭示他们解释的比他想要的少,从而激励和指导寻找更完整的解释。或者,这样的研究可能会揭示出,由于系统复杂性或内在随机性的存在,预测准确性存在一个基本限制,在这种情况下,结论可能是,我们可以解释的比我们想要的要少,即使在原则上也是如此。
除了在实践中澄清预测性和解释性研究活动之间的区别之外,表1说明了我们的第二个主要观点:尽管象限1、2和3都被传统和计算社会科学研究充分填充,但象限4相对空白。仔细综合不同相关因素之间的因果关系以对未来结果做出高质量预测的模型,本质上比那些仅以孤立的解释或预测能力为目标的模型更难制定和评估。
此外,表1所强调的并不是研究人员(计算或其他方面)应该只关注甚至主要关注象限4。相反,在其他象限中存在着大量有趣的、高质量的社会科学,我们认为没有理由不继续下去。事实上,即使一个人的目标是最终进入象限4,如果不花大量时间在象限1、2和3上,他也不可能到达那里。尽管如此,正如我们将在下一节中讨论的那样,象限4明确整合解释性和预测性思维的研究活动可能会比象限1-3单独可以实现的价值增加更多的价值;因此,象限4应该得到比迄今为止更多的关注。
建议
首先,我们通过概述象限4研究的一些具体方法,使我们对解释和预测建模的整合的呼吁更加具体。其次,我们提倡一个明确的标签系统,可以用来更清楚地描述个人研究贡献,确定它所属的象限和它提供的粒度水平。第三,我们注意到,在解释性建模社区内开发的开放科学实践可以适应于预测建模社区,反之亦然。
综合建模方法
我们的第一个建议是通过确定整合预测和解释建模的具体方法来鼓励在象限4中进行更多的工作。在最高层次上,简单地明确思考我们当前的模型位于哪个象限可以激励综合研究设计。以理解信息如何通过社交网络传播为例,这个问题受到了大量关注,因为最近在线社交网络的数据可用性使得高保真度跟踪内容如何从一个人传播到另一个人成为可能。到目前为止,已经有数百甚至数千项研究探讨了这个问题。有些恰好位于象限1,作为纯粹的描述性研究,测量大型和具有代表性的在线信息级联集的大小和结构。这些努力提供了对内容传播方式的见解,其中一些与几十年前提出的观点一致,而另一些则对它们提出了挑战。
其他研究位于象限2和3。例如,象限2中有一项工作旨在确定对信息传播有因果影响的在线内容的特征。在这里,回归模型被用来估计一些高级情感特征(例如敬畏、愤怒、悲伤)对内容传播的影响程度。这项工作提出了一个理论,其中反映积极情绪的内容比消极内容传播得更远。
相反,象限3是使用尽可能多的信息来被动预测内容受欢迎程度的研究。在这里,机器学习技术的使用着眼于最大限度地提高预测准确性,从而产生利用许多特征的统计模型,而不必关注这些关系中的哪些是因果关系,而不仅仅是相关性。
对于象限4,到目前为止,关于这个问题的工作如果有的话也很少; 然而,这样的研究很容易想象。例如,有人可能会试图明确地预测经过实验操纵的内容的传播,比如通过改变个人计划发布的内容来影响其情绪价,或者通过研究同一段内容在传递给给不同个人后时是如何传播的。这类实验将立即加强或挑战其他象限的结果,也将有助于形成预测准确的因果解释。
将我们的注意力转向综合建模也可以激发新的方法来评估我们在其他象限的发现的稳健性。具体来说,我们可以问在象限4中考虑的干预或变化类型下,我们的估计和预测有多好。在实践中,这将意味着更多的跨领域或分布外模型测试:在一个领域中进行的因果估计如何很好地转移到另一个领域,或者预测模型如何很好地适应一个数据分布推广到另一个数据分布?虽然经常非正式地承认归纳性的局限性,但目前在已发表的研究中很少看到这种类型的明确测试。我们的许多模型很可能在这些任务上失败,但是清楚地认识到并量化尚未取得的进展,然而。清楚地认识和量化尚未取得的进展,而不是忽视开发高质量的综合模型,更能取得成功。
来自一个象限的方法也可以用于另一个象限的工作。在象限2中,最近有一些使用机器学习方法来改进现有解释技术(如匹配变量和工具变量)所做的因果估计的例子,以及开发新技术(如适应性实验)以更有效地学习部署不同政策的效果和用于估计异质处理效果的“因果树”模型。
预测模型也能被用作评估解释模型“完整性”的基准。此外,在象限3中也有一些突出的例子,其中结构性因果模型被用来提高预测模型的可泛化性。
我们也可以想象真正位于象限4的方法。例如,经济学和市场营销中的结构建模渴望“确定决定结果的机制,并旨在分析反事实政策,量化对具体结果的影响以及短期和长期的影响。”一个例子需要使用从历史选择数据中得出的消费者偏好估计模型来分析拟议合并的影响。虽然很少发现直接评估这些模型的预测能力的研究,因为它们通常涉及尚未实施的变化,但这种扩展显然是可能的。例如,Athey等人使用密封拍卖的数据来估计竞标者的价值,并对公开的上行拍卖做出预测,然后将预测结果与那些拍卖的结果进行比较。
另一种我们认为特别有希望在象限4中取得进展的方法类似于“坐标上升”算法,其中研究人员在预测和解释建模之间迭代交替。Agrawal等人提供了这种方法的一个例子,他们结合了心理学和机器学习的方法。他们使用的是道德机器数据集,这是一个大规模的实验,收集了来自世界各地的参与者解决“电车”道德推理问题的数千万个判断。最初的研究重点是估计因果关系,操纵与可能被失控车辆撞到的不同群体成员身份相关的变量,以及测量参与者对不同结果的道德可接受性判断的变化。Agrawal等人将该数据集作为构建预测模型的基础,使用黑箱机器学习方法(人工神经网络)来预测人们的决策。这个预测模型被用来批判一个更传统的认知模型,并确定可能影响人们决策的潜在因果因素。然后在新一轮的实验中对认知模型进行评估,测试其对操纵这些因果因素的后果的预测。
建议-清楚地标明贡献
我们的第二个建议看似简单:研究人员应该根据他们做出的贡献的类型清楚地标记他们的研究活动。简单地给已发表的研究增加标签听起来微不足道,但是检查清单、徽章和其他标签方案已经成为提高科学的透明度、开放性和可重复性努力的核心组成部分。受到这些努力的启发,我们认为鼓励研究人员清楚地确定他们贡献的性质将对我们自己和他人都有澄清作用,并为此目的提出表2中的标签方案。我们预计可能会提出许多其他标签方案,每种方案都有优点和缺点。然而,我们至少主张一种满足两个非常一般属性的方案:首先,它应该尽可能清晰地区分表1的四个象限中的贡献;其次,在每个象限内,它应该确定结果所显示的粒度级别(例如,高、中或低)。
表2,根据上面讨论的四个象限澄清研究贡献的性质和粒度的标签方案
粒度 象限1 象限2 象限3 象限4
描述某物 检验因果性论点 测试(被动的)预测性论点 测试一个论点的因果关系和预测的准确性
低
报告事实 测试非零 预测方向或总体结果 预测变化或干预下的方向或总体结果
中
报告平均结果 测试方向 预测总体结果的大小和方向 预测变化或干预下总体结果的大小和方向
高
报告个别结果 估计影响的大小和方向 预测个体结果的大小和方向 预测变化或干预下个体结果的大小和方向
首先对于表2的列,我们认识到象限的边界实际上是模糊的,个别论文有时会包含跨象限或粒度级别的混合贡献;然而,我们认为,将这些含糊不清的问题暴露出来并使其明确,本身就是一项有益的工作。如果,例如,目前尚不清楚某一说法仅仅是描述性的(例如,之间存在着不同的结果变量y两组a和B)或者是一个有因果关系的宣称(例如,差异存在,因为a和B不同于其他一些变量x),要求我们证明我们的模型测试一个有因果关系的宣称为了把它在象限2应该让我们反思我们所选择的语言和可能澄清。这样的澄清也有助于避免混淆,可能产生的任何给定的研究方法落在一个以上的象限,这取决于研究者的目标(见框1中的例子)。
对于表二中的行,表2还旨在澄清,在保持在给定象限内的情况下,参与显示大量不同信息量的活动是可能的。例如,在象限1中,与在人口平均水平或“程式化事实”水平上做同样的事情相比,指定个人层面属性和结果之间关联的描述更能告诉我们一种现象(即,经常用于科学工作总结的定性陈述,如“收入随教育而增长”)。在象限2中,估计一个效应的大小比仅仅确定它的符号(正或负)更有信息量,而符号又比简单地确定它不太可能为零更有信息量。同样,对一系列条件下的效应大小的估计比只对一组条件(例如,为实验室实验选择的特定设置)所做的估计更有信息量。在象限3中,对结果的预测也可以在不同的水平上进行测试,这取决于测试的众多(通常是良性的)细节。例如:(a)对分布特性(例如,总体平均值)的预测信息量小于对个体结果的预测;(b)预测一个观测值属于哪个“桶”(例如,在大多数分类任务中,高于或低于某个阈值)比预测特定的结果值(如回归)告诉我们的要少;(c)在事件发生之前立即作出的事前预测比事先作出的预测困难得多;(d)根据较差或不适当的基线模型进行评估的预测——或缺乏基线的预测——比那些与强基线进行比较的预测提供的信息要少。同样的区别也适用于象限4,关键的区别在于,在这个象限中提出的要求是在数据生成过程中的一些变化下进行评估的,无论是通过有意的实验还是由其他外部因素引起的变化。我们希望,要求研究人员明确地说明某一特定主张所处的粒度级别,将导致对我们的发现做出更准确的解释。
标准化开放科学实践
我们的第三个建议是规范那些从事预测和解释建模的开放科学实践。具体来说,是解释建模社区中的预注册,以及预测建模社区中的通用任务框架。
预注册是指在任何研究活动实际进行之前公开宣布自己的计划,其目的很简单:让读者和审稿人更容易区分计划分析和非计划分析。这一程序可以帮助校准对报告结果可靠性的预期,进而减少在测试给定假设或预测的研究中不可靠、假阳性结果的发生率27,71。具体来说,预注册降低了做出未公开的事后、依赖数据的决策(例如,在许多可能的统计测试中运行哪一个)的风险,这些决策可能导致不可复制的发现。
通用任务框架。第二个可以跨社区标准化的做法是使用共同任务框架来集中一个给定领域的许多研究人员的集体努力。在这个范例中,人们对一个感兴趣的问题、一个与之相关的数据集、以及用该数据集承担的特定建模任务达成一致,以解决激励问题。然后,组织者向参与者提供一些可用的数据,并宣布评估研究工作的标准。然后,参与的研究人员可以在开发模型和提交评估之间进行迭代。重要的是,这种评估发生在一个单独的、隐藏的测试集上,组织者可以访问该测试集,但参与者无法访问该测试集,这有助于防止过度拟合到特定的数据子集。
通用任务框架起源于预测建模社区,经常用于“预测竞赛”,如著名的Netflix Prize Challenge。然而,公共任务框架的好处不仅仅是增加预测性能,而且预测和解释建模社区都可以从更广泛地采用它中受益。在预测建模方面,增加通用任务框架的使用将使目前不同的研究成果之间的比较和综合更加容易。回想一下前面讨论的预测信息传播的任务,目前有许多这样的努力很难进行比较,因为尽管它们声称解决同样的问题,但它们各自使用不同的数据集,定义不同的建模任务,或使用不同的指标来量化成功36。将这些努力集中在共同任务框架下,将迫使不同的研究人员在决定真正感兴趣的问题是什么时找到共同点。它还将使对进展的评估标准化,并使跨研究的见解结合起来变得容易。
Box 建议总结
1
整合预测和解释模型
1.在文章稀少的象限中寻找新的研究机会
2.测试现有的方法,看看它们在干预或分布变化下是如何推广的
3.开发在预测模型和解释模型之间迭代的新方法
2
根据提出研究的象限和要求的粒度清楚地标记贡献
3
规范社会科学和计算机科学领域的开放科学实践,例如,鼓励预测模型的预注册和解释模型的通用任务框架
分享者介绍:Shaobo Wu, he is currently pursuing the master's degree with the Department of Management Science and Engineering, School of Management, University of Shanghai for Science and Technology, China. His research focuses on social media popularity.
本文转载自微信公众号“共读共享共思”。
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!