类别:数字治理
导言
政府聊天机器人作为一种改善政府与公民间沟通的人工智能工具,越来越受到世界各国政府的欢迎。最近,华中科技大学鞠京芮, 清华大学孟庆国, 哈尔滨工业大学孙芳芳和刘鲁宁,华威大学Shweta Singh这五位学者的一项研究,从以用户为中心的角度,探讨了一个涉及多种社交特性的政务聊天机器人的人机交互模式设计问题。该研究在中国政务聊天机器人情境下进行了一项离散选择实验,以检验聊天机器人各种社交特性对公民人机交互偏好的影响。参与者通过众包调查平台报告他们对具有不同社交特性的政务聊天机器人的交互偏好。该研究获得371份有效数据,并使用多项式logit模型进行分析。结果表明,情商、主动性、身份一致性和尽责性显著影响了公民的偏好(影响强度从高到低)。身份一致性具有负向影响,而其他因素均产生正向影响。研究还发现了其中一些影响关系受到参与者个人特征的影响,如年龄、性别和聊天机器人使用经验。这项研究为不同社交特性间的相对重要程度及其对用户感知的影响提供了实证依据,扩展了信息提供/交流(数字互动的五个类别之一)中服务维度的范畴,并促进了社交特性的识别和操作化。论文发表在数字治理类顶级期刊GIQ上面。
(文献来源:Ju J., Meng Q.,Sun F., Liu, L. & Singh, S.(2023). Citizen preferences and government chatbot social characteristics: Evidence from a discrete choice experiment. Government Information Quarterly, online first 9 February: 1-14. DOI:https://doi.org/10.1016/j.giq.2022.101785).
研究问题
近年来,许多国家都采用了人工智能技术来改变其数字政府服务。政府建立各种国家层面的机制(如机构、项目、试点计划),以充分挖掘人工智能在政策制定和政府服务项目设计方面的潜力。《2020年联合国电子政府调查》报告指出:在国家门户网站中使用聊天机器人(即人工智能使能的人机交互应用)的国家数量从2018年的28个翻倍为2020年的59个。所谓的政务聊天机器人,扮演着24小时待命的虚拟公务员角色,使用自然语言处理、深度学习、知识图谱和决策树等人工智能相关算法来分析公民的查询,并迅速、准确地做出回应。它们也有能力不断“学习”公民的需求,以优化其反应。目前的研究主要关注于政务服务咨询供给中基于文本的聊天机器人,而不是基于语音或实体的机器人。
随着新型聊天机器人的出现,如OpenAI发明的GPT 3,有人认为聊天机器人有能力改变世界,因为它们能够像人类一样聊天。然而,尽管聊天机器人有着无可挑剔的交流能力,但其信任仍然是一个关键问题(New York Times,2022)。行业报告表明,通过文本或语音与聊天机器人进行对话的用户已有10亿(Singh,2021)。随着时间的推移,相信聊天机器人也会成为公民与政府互动的通用工具。因此,了解一个可信政务聊天机器人的交互模式设计是至关重要的,这也是本研究的重点。
截至2019年11月底,我国约70%的省级政府都在其门户网站上推出了聊天机器人。这些聊天机器人在交互模型设计中表现出不同的性能水平。例如,一些聊天机器人使用官方语言风格(以如下方式响应公民:对不起,我找不到您的查询结果。),而其他聊天机器人使用非官方语言风格(以如下方式响应公民:你的问题太难了,我答不上来。我已经写下来了,过几天再告诉你!)。在处理比较复杂的查询时,一些聊天机器人使用多轮对话逐步确定公民的需求,有的则使用单回合对话一次性解决其查询问题。因此,实践面临的一个挑战是:哪一种交互模式设计能更好地帮助政府与公民互动?这个问题显然没有得到政府足够的重视。在公共服务电子化过程中,公共行政部门通常关注技术和现有流程,而非考虑最终用户(即公民)的偏好(Rose,Flak&Säbø,2018)。但是,忽视用户偏好的电子服务往往导致采纳率低(Fakhoury&Aubert,2015)和服务质量评价低(Buckley,2003)。事实上,个人偏好应该是电子服务成功因素研究的核心(Wirtz, Weyerer, & R¨osch, 2019)。以用户为中心的方法进行电子服务开发必须得到充分的探索(H¨ogstr¨om, Davoudi, L¨ofgren, & Johnson, 2016)。就本研究而言,政府应该评估机器人的人机交互偏好,以确保公民可以更加有效地采纳政务聊天机器人提供的服务,并产生对政府的满意度(Lin & Doong, 2018)。
政务聊天机器人的社交特性及其与公民之间的数字互动
政务聊天机器人与公民之间的数字互动
政府对公民(G2C)电子政务是指利用信息和通信技术(ICT)更好地为公民服务的政府系统。它旨在简化和改善交易,改善公共服务的提供,并为终端用户提供利益(AlHujran、Al-Debei、Chatfield&Migdadi,2015;Axelsson、Melin&Lindgren,2013;Moon,2002)。最近,人们对以政府为重点的数字解决方案的潜力越来越感兴趣(Buckley,2003;Veeramootoo、Nunkoo&Dwivedi,2018)。联邦、州和地方各级政府正在积极探索使用人工智能来促进数字政府服务的转型。迄今为止,涉及公民服务的人工智能案例研究通常包括五个类别,包括人工智能使能的咨询问答、文书自动化、请求派发、翻译和文件起草(Mehr,Ash&Fellow,2017)。本研究所关注的政务聊天机器人代表了人工智能使能的咨询问答应用。
政务聊天机器人提供的数字服务(也称为电子服务或在线服务)可以看作是政府与公民之间的数字互动,目的是为最终用户增加一些价值(Jansen&ölnes,2016;Pleger et al,2020)。根据Jansen和Ølnes(2016)提出的数字交互五大类别(即信息提供/通信、安全交互/交易、安全承包、完整交易流程和支持功能),政务聊天机器人和公民之间的互动是一种信息提供/交流。与提供信息的搜索引擎或主动推送系统不同,聊天机器人希望通过模仿人类的语气和敏感性的行为自然地进行交流(Jenkins、Churchill、Cox&Smith,2007);否则,用户必须在交互过程中调整自己的行为以适应机器人不足够类人化的交互行为,这会降低他们的参与度和满意度。聊天机器人也被期望提供比人类更有用、更有生产力和更方便的服务(Tavanapour&Bittner,2018),否则会被认为是浪费的、令人失望的。
然而,现有研究仍需进一步的系统研究来确定聊天机器人在政务服务背景下的关键特性,以及它们是否对用户偏好有显著影响,这是本研究的重点。
政务机器人的社交特征
根据媒体等同理论(Media Equation theory),个人将电脑视为社会角色,在与电脑互动时自然会对社会情境做出反应。尽可能逼真地模仿人与人之间的对话是聊天机器人设计的一个重要方面(Brandtzaeg&Følstad,2017;Nguyen和Sidorova,2018)。因此,研究人员不断强调社交能力作为聊天机器人交互目标的重要性(Jain et al,2018;Liao et al,2018)。Chaves和Gerosa(2021)通过分析各个领域的无实体、基于文本的聊天机器人文献,推导出了一个影响用户感知和行为的聊天机器人社交特性的概念模型。他们从三个维度确定了11个社交特性:(1)会话智能(即聊天机器人在实现会话目标的技术能力之外进行有效对话的能力),包括主动性、尽责性和交流性三个社交特性;(2)社交智能(即聊天机器人为达到预期目标而表现出适当社会行为的能力,如对社会线索作出反应、接受差异、管理冲突、表达情绪等),涉及破坏性控制、尽责性、礼貌、道德责任、情商和个性这些特性;(3)拟人化(即聊天机器人被赋予人的特征的能力,如外表和情绪状态),涉及身份和人格等社交特性。这三个维度构成了一个通用模型,促进我们对政务聊天机器人社交特性的理解。
研究假设
本研究系统地识别出政务聊天机器人的五个关键社交特性,这些特性使政务聊天机器人的设计能够更好地满足实际需求(Porreca et al,2018;Tavanapour et al,2019)。这些关键特性覆盖聊天机器人社交特性概念模型的三个必要维度(Chaves&Gerosa,2021),从而突出了聊天机器人在数字互动中与其他电子政务服务的差异性。基于公民满意度和电子政务服务质量等相关研究基础,本研究从理论上分析了社交特性对公民交互感知的影响,并提出了相关的理论假设。
H1. 政务聊天机器人内嵌的主动性对公民与聊天机器人的交互偏好有积极影响。
H2. 政务聊天机器人内嵌的尽责性对公民与聊天机器人的交互偏好有积极影响。
H3. 政务聊天机器人内嵌的交流性对公民与聊天机器人的交互偏好有积极影响。
H4. 政务聊天机器人内嵌的情商对公民与聊天机器人的交互偏好有积极影响。
H5. 政务聊天机器人内嵌的身份一致性对公民与聊天机器人的交互偏好有积极影响。
实验方法和测量
离散选择实验
离散选择实验(Discrete Choice Experiment, DCE)是一种广泛应用于市场营销、公共管理和信息系统领域的研究方法。本研究之所以采用DCE方法,是因为与评估个人偏好的其他方法相比,DCE方法使被试做出的决策更接近于他们在现实世界中的决策过程(Raghavarao、Wiley&Chitturi,2010)。这种策略可以揭示出属性对个人选择行为促进性的有价值信息。开展DCE包括五个步骤:(1)识别属性;(2)确定属性级别:(3)生成替代方案;(4)确定选择集并获得偏好数据;(5)分析选择数据(Van Puyvelde et al.,2016)。
本研究使用DCE来引出公民对政务聊天机器人的偏好,并确定在聊天机器人中嵌入的各种社交特性如何影响这些偏好。参与者被要求从两个具有不同社交特性表现(即属性水平)的交互模式设计(即选择集)中选出更加喜欢的一款政务聊天机器人(即备选方案)。每个参与者需要完成多个选择集的选择,在每次选择中他/她需从每个选择集的两个方案中选择他们最喜欢的一个。根据DCE最大效用假设,公民在选择集中为每个交互模式设计分配效用,并选择效用最大的交互模式(Raghavarao&Wiley,2006)。这个选择过程类似于一个实际的决策过程;因此,分析参与者的选择可以揭示聊天机器人的社交特性如何在实践中影响用户的感知(Obrien,2012)。
DCE设计
实验背景
在中国,数字政府战略,特别是涉及人工智能相关技术的战略,近年来一直被优先考虑,以提高政府的效率、可访问性和开放性。国务院办公厅于2017年发布发布的《政府网站发展指引》要求各级政府部门在网站上通过自然语言处理等相关技术,自动解答用户咨询,不能答复或答复无法满足需求的可转至人工服务。截至2019年11月底,34个省份的省级政府门户网站中,约70%的政府门户网站上线了人工智能使能的政务聊天机器人,如北京市政务服务网的“京京”、浙江省政务服务网的“政小二” 、上海市政务服务网的“白玉兰助手”等。
属性识别和等级划分
根据文献综述确定了影响公民互动偏好的政务聊天机器人的五个基本社交特性:主动性、尽责性、交流性、情商和身份一致性。这些也被认为是DCE的属性。定义每个社交特性的等级是具有挑战性的,因为它们通常很难测量或量化。根据每个社交特性的定义以及我国省级政务聊天机器人的表现情况,我们将这五个社交特性依次划分为两个等级。在实践中,所有聊天机器人都能主动发起对话,并制定后续问题;然而,在提供额外信息方面,它们的表现是不同的。根据主动性的定义,我们将低主动性定义为不提供额外信息的聊天机器人,而将高主动性定义为提供额外信息的聊天机器人。
选择方案和选择集生成
对于本文所评估的五个属性中的两个等级(高和低),有32种不同的选择(即32种可能的聊天机器人交互模式设计)。考虑到受试者的认知局限性和时间成本,我们使用SAS (SAS Institute Inc.)生成了16个镜像选择集(Street,Burgess和Louviere,2005),它们具备合理设计的四个特征,即水平平衡、正交性、最小重叠和效用平衡。
在实验中,每个参与者同时比较两个聊天机器人,聊天机器人A和聊天机器人B。聊天机器人的人机交互模式设计体现在五个社交特性的设计上,两个机器人都具备这五个特性(属性)但却有着相反的属性等级,除此之外,它们在其他方面是一致的。这是镜像设计的基础,所以聊天机器人A和聊天机器人B在每个特性上都不同:主动性(提供额外的信息vs.不提供额外的信息)、尽责性(单轮对话模式vs.多轮对话模式)、交流性(介绍功能和交互原则vs.不介绍功能和交互原则)、情商(关注公民反馈vs.不关注公民反馈)和身份一致性(使用非官方化语言风格vs. 使用官方语言风格)。例如,如果聊天机器人 A提供了额外的信息,采用单轮会话方式,使用官方语言,那么,聊天机器人B则不提供额外的信息,采用多轮会话方式,使用非官方语言。简而言之,受试者被要求在每个选择集中的两个互为镜像的政务聊天机器人之间进行选择。聊天机器人A和聊天机器人B组成了一个双重选择集,在这个选择集中,被试表明了一个偏好。
实验程序和数据收集
在实验中,参与者首先被告知一个场景(图第一部分),在这个场景下,假设自己在北京丢失了身份证,户籍不在北京,但希望在本地申领一个新的身份证。被试者在北京市政务服务网站上通过聊天机器人,咨询了如何办理异地身份证补办。本研究选择异地身份证补办作为实验场景,是因为这是身份证办理服务的一项子服务,而身份证办理在“京京”受理的业务咨询量排名中位列第二。此外,其咨询过程满足了嵌入五个社交特性的设计要求。
接下来,选择集中的两个聊天机器人的交互模式设计被描述在一个简单的表中(图第二部分)。为了清晰地定义每个属性级别的含义,使实验选择更接近真实世界的决策过程,本研究使用社交应用软件——微信,来模拟每个备选方案中用户和政务聊天机器人的对话过程。根据每个方案的属性等级,我们模拟了一个具有相应社交特性的聊天机器人处理异地身份证补办问题的对话过程(图第三部分)。最后,由被试者从两个聊天机器人中选择更喜欢的一个(图第四部分)。
数据分析
在对428个调查回答进行初步的效度筛选后,我们删除了第二和第五选择集之间答案不一致的被试者选择数据,最终获得了371个有效数据。我们使用多项logit模型进行数据分析,因为该模型是分析DCE实验数据最常用的工具(Chen&Chitturi,2012;Raghavarao et al.,2010)。它可以实现基于自变量的值来推断每个方案的概率。假设选择每个备选方案的概率(即聊天机器人交互模式设计)是该方案特定属性(即社交特性)的函数,多项式logit模型可以估计每个方案被选择的概率,作为该方案的效用指数。我们使用R的mlogit包对本研究收集的数据进行分析。
研究发现
调查样本包括广泛的参与者。93%的参与者年龄在18至40岁之间,47%为男性,74%拥有本科学历,11%拥有研究生学历,15%无大学学历。样本参与者大多是年轻人,具有一定的教育水平。因为这个人群更有可能成为聊天机器人的早期采用者(Jain et al.,2018;Kasilingam,2020),我们认为,估他们作为样本组的偏好来研究早期聊天机器人-用户交互模式的设计是合理的,类似于之前的研究(Avula et al.,2018;Ho et al.,2018;Nguyen、Sidorova et al.Torres,2022)。高达93%的参与者有一定程度的使用聊天机器人的经验。结果所示,主动性、尽责性、情商的估计系数为正且显著(分别为β=0.50,p<0.001,β=0.24,p<0.001,β=0.64,p<0.001),这意味着参与者更喜欢提供额外信息、使用多轮对话模式、并注意他们反馈的政务聊天机器人。具体来说,当所有其他参数一致时,当政务聊天机器人表现出更高水平的主动性时,公民选择政务聊天机器人的几率增加了0.50倍,当它具有更高水平的尽责性时,增加了0.24倍,当它表现出更高水平的情商时,增加了0.64倍。身份一致性系数为负且显著(β=0.43,p<0.001),表明参与者更喜欢使用非官方语言风格的政务聊天机器人。当政务聊天机器人具有更高的身份一致性(即使用官方语言风格)时,偏好政务聊天机器人的几率降低了0.43倍。交流性系数不显著(p=0.68),这意味着在所有其他特性相同,聊天机器人是否介绍其功能和交互原则并没有明显影响公民的偏好。总的来说,数据似乎支持假设1、2和4,而不支持假设3和5。
为了调查测试样本人群中可能的偏好异质性,通过纳入人口学变量(即年龄、性别和教育背景)和个人经验(即聊天机器人使用经验)进行了进一步的分析。当考虑所有这些社会人口统计学变量时,主动性和尽责性对交互偏好有显著影响(β=2.3,p<0.001,β=1.47,p<0.01)。年龄、性别和使用经验确实揭示了一些偏好异质性,而教育背景却没有。具体来说,年龄对主动性和尽责性有负向异质性影响(分别为β=-0.32,p<0.001和β=-0.23,p<0.05),这意味着老年参与者比年轻参与者对主动性和尽责性所带来的交互偏好增加并不太敏感。性别对主动性有负向异质性影响(β=-0.43,p<0.001),这意味着女性参与者对主动性所带来的交互偏好增加的敏感性往往低于男性参与者(男性代码为1,女性代码为2)。而使用经验对主动性有正向异质性影响(β=0.13,p<0.05),说明使用经验丰富的参与者比缺乏经验的参与者对主动性所带来的交互偏好增加更敏感。
讨论和结论
本研究假设政务聊天机器人的主动性会对公民与聊天机器人的交互偏好产生积极影响(H1)。结果显示,这一社交特性的影响是显著的;因此,H1得到了实验数据的支持。对该影响显著性的理论解释是,具有高主动性的政务聊天机器人(即提供额外信息的机器人)在吸引公民方面更成功,因为这一特性增加了价值,提高了对话效率(Avula et al.,2018;Jain et al.,2018)。实际上,主动服务是解决繁琐的服务形式和依赖于公民请求的服务触发等各种问题的有效途径。无论是旨在将服务交付模式从拉动转变为推动的主动电子治理框架(Linders et al.,2018),还是从一站式服务扩展到无站式服务的电子政务阶段模型(Scholta、Mertens、Kowalkiewicz&Becker,2019),他们都从概念上展示了服务型政府战略下主动服务的必然趋势。本文的研究结果为这些概念性讨论提供了实证证据,从公民视角出发支持了这一趋势所带来的好处。
研究者们还假设政务聊天机器人中的尽责性与公民愿意与聊天机器人互动的可能性呈正相关(H2)。结果显示,尽责性对公民交互的影响是正向且显著的;因此,数据支持H2。我们认为,与采用单轮对话模式的政务聊天机器人相比,采用多轮对话模式的聊天机器人在跟踪和驱动对话方面表现出更强的尽责性。与Jain等人(2018)的研究结果一致,他们发现用户更喜欢回合制消息传递模式的聊天机器人。而本研究中大多数的被试者均使用过聊天机器人,且我们关注的是政务服务领域的聊天机器人,因此,我们的研究有助于进一步拓展Jain 等人的研究发现。
H3并没有得到本研究的实证结果支持。一个可能的原因是交流性对用户偏好的影响受到交流策略的影响。在Valério 等人(2017)确定的11种策略中,S1(即在第一条消息中介绍主要功能)和S3(即向用户建议下一步行动)是我国大多数省级政务聊天机器人传递交流性的主要策略。我们发现交流性(使用S1和S3)对用户偏好没有显著影响。但是,基于其他策略的交流性是可能产生不同效果的,例如S2(在发送第一个消息时,通过一个小教程引导用户)、S4(拥有一个包含主要功能的持久菜单)或S5(拥有一个包含主要功能的主菜单)。特别是,使用S4可能会产生显著的积极影响,因为Jain等人(2018)发现,在交互过程中提供关于聊天机器人能力的持久菜单是有益的。此外,本研究结果也表明,交流性(使用S1和S3)可能不会显著提高公民对政务聊天机器人在电子政务服务质量方面的可靠性感知。
情商正向且显著影响公民与政务聊天机器人互动的偏好;因此,H4得到数据支持。本研究结果表明,高情商的政务聊天机器人(即关注公民反馈的政务聊天机器人)通过表达同理心来帮助公民,增强公民互动体验。这一发现与之前的研究一致,如Dohsaka等(2014)和Li等(2017),即情商对用户感知有积极影响。此外,在解决一个公民的问题时表现出真诚的兴趣或同理心为“公民支持”提供了一个新维度(Delone&McLean,2003;Papadomichelaki&Mentzas,2012),这一维度在本研究中代表的是关注公民满意度和反馈。因此,这些结果为进一步研究聊天机器人交互设计如何影响其服务质量提供了思路。
身份一致性显著影响公民与政务聊天机器人的交互偏好;因此, H5未能得到支持。虽然官方语言风格比非官方语言风格更符合公务员的交流特点,但它不一定能促进公民与聊天机器人的交互。一个可能的原因是,官方语言风格强化了一些用户对聊天机器人所代表的群体的负面刻板印象,类似于基于性别和种族的看法(De Angeli et al.,2001;Marino,2014;Schlesinger et al.,2018)。事实上,一些政府部门现在更喜欢用非正式的语言在公共渠道与公民互动(Stone&Can,2020)。非正式语言风格的显著积极作用可能与更具社会存在感知有关。
本研究也揭示了公民对不同社交特性的相对偏好度。根据系数,社交特性的重要性由高到低依次为:情商、主动性、身份一致性、尽责性。总体而言,情商(即对公民反馈的关注)是提高公民偏好最为有效的社交特性。
研究还发现,某些个体因素可以显著增强或削弱了社交特性对公民偏好的影响。结果显示,年龄减弱了主动性和尽责性对公民偏好的积极作用,女性性别也减弱了主动性对公民偏好的积极作用。具备丰富聊天机器人使用经验的公民明显更喜欢具有主动性的聊天机器人,而不是其他特性。
本研究的理论贡献。首先,研究结果为可信政务聊天机器人的交互模型设计提供了指导,为理解聊天机器人社交特性的相对重要性建立了理论基础。其次,本研究侧重于以用户为中心的数字化政务服务设计,明晰了服务特性(即聊天机器人的社交特性)及其对智能人机交互偏好的影响机理。第三,这项研究首次考察了政务聊天机器人的社交特性,本研究对社交特性的识别和操作化,为未来研究社交特性对公民感知的影响提供了参考。
基于这项研究的结果,研究者们为政务聊天机器人设计者提出了三个实践建议。首先,他们在聊天机器人设计中,应使其具备提供补充信息、采用多轮对话模式、关注公民反馈、使用非官方的语言风格的特性,因为主动性、尽责性和情商对公民的偏好有显著的积极影响,而身份一致性有显著的消极影响。第二,如果上述所有的社交特性不能在聊天机器人设计中同时实现,我们建议应该优先考虑关注公民反馈特性的实现,其他特性(例如,提供补充信息,使用非官方语言风格,以及采用多轮对话模式)可以后续慢慢实现。这一建议是基于这些社交特性的相对重要性而给出的。第三,本研究认为是否在聊天机器人在第一条消息中介绍其功能和交互原则,是无关紧要的,因为这类交流策略对公民偏好没有显著影响。然而,设计者可以尝试采用其他策略(比如通过一个持久菜单来展示机器人的主要功能),以展示聊天机器人的交流性。
如果您喜欢此文,请转发和分享给朋友们。谢谢!
附参考文献文献附参考文献
参考文献:
Araujo, T. (2018). Living up to the chatbot hype: The influence of anthropomorphic design cues and communicative agency framing on conversational agent and company perceptions. Computers in Human Behavior, 85, 183–189.
Cantarelli, P., Belle, N., & Longo, F. (2020). Exploring the motivational bases of public mission-driven professions using a sequential-explanatory design. Public Management
Review, 22(10), 1535–1559
Jansen, A., & Ølnes, S. (2016). The nature of public e-services and their quality dimensions. Government Information Quarterly, 33, 647–657.
Nguyen, Q. N., Sidorova, A., & Torres, R. (2022). User interactions with chatbot interfaces vs. Menu-based interfaces: An empirical study. Computers in Human Behavior, 128, Article 107093.
Veeramootoo, N., Nunkoo, R., & Dwivedi, Y. K. (2018). What determines success of an egovernment service? Validation of an integrative model of e-filing continuance usage. Government Information Quarterly, 35(2), 161–174
转自:“治理学术”微信公众号
如有侵权,请联系本站删除!