近年来,人工智能技术的迅猛发展显著改变了人类生活。深度学习、自然语言处理和高性能计算技术的不断进步极大地提升了机器在处理、管理和分析数据方面的效率。机器能够收集大量信息并基于这些信息生成最佳解决方案,从而不断提升解决问题的能力。这种转变也对人与机器之间的交流方式产生了影响。各种人工智能代理,如服务型聊天机器人、机器人记者和推荐算法,已经在部分领域承担着人类在沟通中的不同角色。随着人工智能变得愈发智能,人们对于人工智能与人类之间的沟通效果产生了浓厚的兴趣。
传统的说服研究将说服(persuasion)定义为“一种沟通过程,在该过程中,沟通者试图从其接受者那里获得所需的反应”。随着技术的进一步发展,技术在沟通中的作用愈发重要,因此出现了“说服技术”的概念。研究者Dillard使用“社会行动者”这一术语来描述说服者,这一术语更具包容性,将计算机也作为社会行动者纳入说服者中。人工智能作为一种新型技术形式和社会行动者,在影响人类生活的各个领域中扮演着说服者的角色。
本期我们分享文章Is artificial intelligence more persuasive than humans? A meta-analysis。研究旨在全面了解人工智能和人类在说服效果方面的差异,并有助于揭示其在说服过程中的作用。文章于2023年8月发表在Journal of Communication。
一、研究问题
基于人工智能被广泛用于说服和沟通过程这一研究背景,作者分别从以下角度提出了研究问题:
首先,人工智能在说服沟通过程中扮演着双重角色,既是信息发送者,又是关系伙伴。“人工”智能系统旨在以模仿人类认知处理机制的方式处理信息和进行交流行动。已有的理论视角,如CASA (Computers are social actors)范式、MAIN (Modality–Agency–Interactivity–Navigability)模型等,被用于研究人类与计算机的互动关系。关于人工智能是否比人类更有说服力,学界并没有达成共识。近年来,在各种背景下出现了支持不同解释的实验证据。因此提出:
RQ1:人工智能比人类更有说服力吗?
RQ2:人工智能在促进a)感知、b)态度、c)行为意图和d)实际行为方面是否比人类更有效?
其次,在以往研究中,当人工智能在沟通过程中扮演的角色不同,观察到的效果也存在较大差异。本文将人工智能分为四种类型,包括对话者(converser,如聊天机器人)、创作者(creator,如AI记者)、管理者(curator,如AI审核员)和决策者(contemplator,如AI医生),并提出以下问题:
RQ3:人工智能与人类对说服效果的影响差异是否随着人工智能在沟通中的角色而变化?
第三,人工智能和用户之间的通信流的性质也可能影响人工智能代理的说服力。通信可以是单向的(即信息从AI流向用户,没有用户的反馈)或双向的(即AI向用户发送信息,用户提供反馈,AI根据反馈做出响应,继续通信)。由此提出:
RQ4:人工智能与人类对说服效果的影响差异是否随着通信的方向而变化?
第四,文献表明,用户对新技术的反应可能受到文化差异影响。由此提出:
RQ5:人工智能与人类对说服效果的影响差异是否随着文化价值观而变化?
最后,基于之前的研究经验,实验环境因素,以及性别和年龄这两个人口因素也被视为潜在的调节因素。由此提出:
RQ6:人工智能与人类对说服效果的影响差异是否因a)实验环境或b)参与者的性别和c)年龄而异?
二、研究方法
本文采用了Meta-analysis(元分析)这一方法,首先让我们来认识一下这种方法吧!
元分析
Meta-Analysis
元分析(Meta-analysis)是一种系统性的统计方法,其核心原理是将多个独立研究的结果进行整合和综合,以产生更为准确、可靠和全面的结论。通过汇总不同研究的数据,可以提供更大的样本量,从而增强统计能力,揭示出研究间的共性和差异,降低随机误差的影响,以及检验研究结果的一致性和稳定性。元分析通常应用于医学、心理学、教育、社会科学等领域,尤其是当不同研究的结果存在一定的异质性或矛盾时,通过元分析可以尝试解决这些不一致之处,从而提供更为一致和全面的结论,为决策和实践提供有价值的指导。
进行元分析需要一定的统计知识和专业技能。在进行元分析时,研究者需要收集并整理各个独立研究的数据,计算出统计效应量(如平均效应等),并进行合并分析,同时还要关注研究的质量、异质性、偏倚等问题,以确保得出的结论是有意义和可靠的。
在本文中,研究分为以下步骤:
1.样本选择
研究者在ACM Digital Library等多个数据库中进行了系统搜索,搜索的英文关键字包括(“artificial intelligence” / “AI” / “A.I.” )或(“chatbot” / “bot*” / “algorithm*” / “machine” / “computer” / “automat*” / “virtual agent”)和(“human” / “man” / “social”)和( “experiment”)。研究者还查看了相关研究的参考文献列表和相关综述文章,并查看了该领域领先学者的主页。此阶段的文献检索共得到了3989个结果。
经过标题和摘要筛选,将剩余的481篇文章根据以下标准进行进一步评估:(a)研究必须使用随机对照试验设计,比较人工智能作为沟通者的沟通和人类作为沟通者的沟通;(b) 研究必须将感知、态度、行为意图或实际行为作为因变量;(c) 研究必须报告效应大小或提供足够的统计信息(如均值、标准差和标准误差)。
在应用筛选过程和选择标准后,得到89篇文章。在本文分析中,研究者将一个实验中来自不同国家/地区的样本视为不同的样本,以更好地捕捉不同文化背景下的差异。最终元分析包括127个独立样本。
2.数据提取
研究者使用文章中可用的统计信息或联系原文作者得到的统计信息来计算效果大小。
(1)计算实验组(AI)和对照组(人类)之间的标准化平均差Cohen’s d,作为AI与人类能动性相对影响的指标。正值表示人工智能在产生所需说服结果方面比人类更有效。
(2)与感知、态度、行为意图和实际行为相关的所有结果变量的效应大小作为单独的条目纳入元分析,共产生300个效应大小估计值。对于测量负面结果的结果变量,进行反方向处理。
(3)根据文章中的信息进行编码。首先,两名编码人员从整个样本中随机选择25篇文章,对其进行独立编码。所有调节因子的Krippendorff's α值都超过了0.80的通用截止阈值,表明了令人满意的可靠性。经过讨论解决分歧后,剩下的文章在编码者之间进行分配,一人一半。
(4)人工智能在交流中的角色被分为四类。
(5)基于交流是单向还是双向,人类与人工智能通信的方向被操作化为二元变量。
(6)根据Hofstede指数对每个样本的文化背景进行评分,得分在50分及以上的被归类为个人主义文化,低于50分的被归类为集体主义文化。
(7)实验设置编码为:现场实验;实验室实验;在线实验。
(8)作为每个样本性别分布的指标,女性参与者的百分比被记录并编码为以下类别之一:40%以下;40%至60%;60%以上。每个样本的平均年龄被记录并编码为:18岁以下;18-24岁;25-40岁;40岁以上。
3.数据分析
研究者使用R包metafor进行了数据分析。
(1)考虑到从一个样本中提取的多个效应大小可能具有共同的方差(即统计依赖性),使用多层次建模来处理三层次数据结构,其中效应大小嵌套在研究样本中(1级)和研究内部的样本中(2级)。为了汇总结果,通过考虑研究内和研究间的异质性,将平均效应大小估计为3级。
(2)异质性检验,显著的Q检验结果表明存在显著的异质性。选择随机效应模型来估计平均效应大小,以考虑不同研究之间的差异,并更准确地估计整体效应大小。
(3)对于调节因子的分析,使用了多级元回归框架下的综合测试。显著的F检验结果表明,不同类别的调节因子的效应大小显著不同。
(4)对每个类别的平均效应大小进行了估计,并进行了显著性检验。
三、研究结果
这项元分析检验了人工智能与人类作为沟通者对说服结果的影响,为人机交流以及人工智能的说服作用研究提供了更细致的见解。
图1 对整体说服效果的调节分析(来自原文)
研究发现:
1.人工智能和人类在整体说服效果方面没有显著差异。
2.人工智能在塑造行为意图方面不如人类有效,但人工智能在引发态度、感知和实际行为方面与人类没有显著差异。
3. 人工智能在沟通中的角色对其效果来说是一个显著的调节因素。当扮演决策者的角色时,人工智能主体的整体说服效果不如人类明显。就具体的说服效果而言,人工智能沟通者的角色显著地调节了人工智能和人类在感知和行为意图上的影响差异。
4. 通信方向的差异对整体说服效果没有影响。就具体说服效果而言,当涉及到实际行为时,人工智能与人类在双向交流中的效果有显著差异。
5.个人主义和集体主义文化在整体和具体的说服效果上没有显著差异。
6. 实验环境对整体说服效果没有显著影响。就具体说服效果而言,在线实验中,人工智能比人类获得了更消极的感知和行为意图。在实验室实验中,人工智能获得了更为消极的感知。
7.年龄和性别对整体和具体说服效果没有显著影响。
四、偏倚检验和事后检定力分析
在元分析中,常见的需注意的问题是发表偏倚,因为发现不显著结果或小效应量的研究可能不太容易被发表。为了检验潜在偏倚,研究者首先比较了样本中已发表和未发表研究的效应量。人工智能与人类的相对效应在未发表的研究中没有差异。然后,研究者使用两种方法对发表偏倚进行了正式评估:
(1)漏斗图。这是一种可视化方法,分别在水平轴和垂直轴上绘制Fisher's z得分和相应的标准误差。如果数据在图中以漏斗形状对称,则可认为没有发表偏倚。
(2)Egger回归检验。这是对效应大小估计分布的对称性的统计检验,若结果不显著表明没有发表偏倚。
在本文中,研究者通过从每个样本中随机选择一个效应大小来创建一个数据集,并使用这个新数据集生成漏斗图并运行检验。
图2 漏斗图(来自原文附件)
为了检验分析结果是否具有足够的统计效力,使用R软件包dmetar进行事后检定力分析(Post-hoc power analysis)。根据估计的平均效应大小、纳入的研究数量和实验组的平均样本量,在不同水平的研究间异质性方差(即低、中、高)下,计算了总体说服效果和每个具体说服结果的功效值。
参考文献:
Huang, G., & Sai, W. A. N. G. (2023). Is artificial intelligence more persuasive than humans? A meta-analysis. https://doi.org/10.1093/joc/jqad024
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!