周勇、郝君怡 | 建构与驯化：人工智能主播的技术路径与演化逻辑

2022/6/20 17:03:51　阅读：227　发布者：

周勇，中国人民大学新闻学院教授。

郝君怡，中国人民大学新闻学院博士生。

本成果受到中国人民大学2022年度中央高校建设世界一流大学（学科）和特色发展引导专项资金支持（项目编号：17RXW104）。

从新华社发布“全球首个人工智能主播”至今不过四年，知网上以“智能主播”为主题进行学术期刊及学位论文检索，就可检索出近五百余篇文献，尤以2017、2018年呈倍数增长。2021年10月，广电总局发布《广播电视和网络视听“十四五”科技发展规划》，提出“推动虚拟主播广泛应用于新闻播报、天气预报、综艺科教等节目生产，创新节目形态，提高制播效率和智能化水平”（国家广播电视总局，2021），智能主播的应用已成为行业所趋。然而相关研究大多仅将智能主播视作已经完成的媒介产品，对于其作为技术物进化的路径尚缺乏系统梳理与阐释。

人工智能技术发展演变自20世纪50年代至今，在人与智能技术的关系方面衍生出两种截然不同的哲学观点：理性（rationalistic）和设计（design），这两种观点分别以约翰·麦卡锡（Jhon McCarthy）和道格拉斯·恩格尔巴特（Douglas Engelbart）为代表（Auernhammer，2020）。理性主义表现为以模拟人类、完成任务等为目的的技术理论开发；而设计主义强调人与技术环境的相互作用（Winograd，2006），倾向于将人工智能视为提高人类能力、改善生存状况的工具。人机交互（HCI）是一门设计科学（Carroll，1997），早在19世纪末就有学者预测未来50年与人类交互的计算领域将得到进一步发展，并可能在主流计算机科学之外创造一个新的“交互设计（interaction design）”领域（Winograd，1997）。随着信息社会的到来，计算机转变为开放的集成环境并为用户创建虚拟空间，研究者开始将用户界面（user interfaces）设计的重要性提到更高位置（Stephanidis，2001）。随着人工智能技术的发展，单一或零散的设计思路已更加难以满足人机交互的需求，亟待全面的、整体性的视角指导技术设计。根据约翰·卡罗尔（Carroll，1993）的观点，技术历史和设计框架是人机交互设计的两个重要手段。本研究通过对人工智能主播进化路径的梳理，试图回答以下问题：人工智能主播的发展具有怎样的演进逻辑？如何通过技术设计实现技术进化与以人为主体的技术驯化间的平衡？未来人工智能主播可能会在哪些维度实现对社会语境的重构？

一

人工智能主播的进化路径

约翰·卡罗尔（1993）曾说：“想要了解技术已经走到哪里，将要去向何方，我们必须回首往事”。播音员主持人是工业化时代的产物，最初在媒介产业中仅作为一个将文字转化为声音的工种而存在。回溯20世纪20年代，美国广播电台启用播音员主持人的初衷，是为了应对在与报纸抢占新闻阵地时有利于报社的一个规定：电台新闻联播中不能包含广告。于是为留住赞助商，电台开始启用新闻评论员播发广告。电视发展初期也并未围绕固定的播音员主持人来建构节目形态，一些业内人士一边对播音员主持人这一电视角色持消极态度，一边通过建立电视观众研究所（Television Audience Research Institute）等方式进行初期探索，直到播音员主持人的个性价值被广泛认知（Conway，2007）。从全球视听传播史的视角来看，播音员主持人诞生初期的功能定位与广播电视媒介中动画、音响等视听传播工具近似，仅为丰富视听表达而存在。随着视听传播的发展，主持人、主播角色的相继创设，使播音员主持人群体开始具有人格化信息传播中介的重要功能。大众传播机制下播音员主持人所营造的拟态的人际传受关系，实现了传媒工业化生产中“人”的价值回归。而近年来人工智能技术进驻播音主持领域所产生的“人工智能主播”，糅合了记者、播音员主持人等角色，成为数字化的信息传播“代言人”，表征了播音员主持人媒介角色进一步走向技术化和工业化。

在人工智能成为技术建构的核心及基础前，被概称为“虚拟主播”的播音员主持人的数字化存在已经历了二十余年的发展。20世纪初期，阿娜诺娃的出现，标志着以虚拟存在为表现形式的播音员主持人开始应用于视听新闻节目。阿娜诺娃虽然可以实现24小时持续播报，但受限于其单一、僵化的表现形式，与播音员主持人“人格化”的媒介角色功能相去甚远，导致这一波“虚拟主播”热潮终如昙花一现。第二波热潮出现在2016年前后，以“绊爱”为代表的虚拟up主（Virtual Youtuber）将虚拟偶像的身份与播音主持功能相结合。其“中之人”表演结合动作捕捉技术的生产模式，虽确保了较大程度的人格特质，却无法实现大规模自动化产出。可见在人工智能技术介入前，“虚拟主播”难以实现自动化与人格化的兼顾，因而难以在新闻生产领域实现常态化应用。人工智能技术的全面深度应用赋予了虚拟存在“系统正确解释并学习外部数据，并由此灵活地实现特定目标和任务的能力”（Kaplan & Haenlein，2019），使其成为能够部分代替甚至部分超越真人主播的媒介角色。2018年，女性机器人Erica被日本电视网“聘请”为播音员。同年11月，新华社发布世界首位以真人为原型的人工智能男性主播“新小浩”，并于次年3月上线女主播“新小萌”。2020年，韩国LGHelloVision对人工智能播音员进行试点播出；路透社以其高级编辑欧森·夏恩（Ossian Shine）为原型开发了一位人工智能体育记者，使其成为全球首位自动化体育报道的主持人......越来越多的人工智能主播已经在世界范围内的传媒机构中应用，或在节目中试水，或已成为正式的固定角色。

布莱恩·阿瑟（Brian Arthur）提出技术进化的“自创生”机制，他认为：技术是历史的产物，所有技术都是以已有技术为基础被创造，因而“技术的价值不仅在于可以用它做什么，而且在于它进一步可以导致什么”（阿瑟，2011/2014：190）。技术进化的观点蕴含了技术创新系统内部的各因素及其环境条件之间的相互作用、相互选择机制，构成理解技术创新的契机（张培富，李艳红，2000），有助于打开“技术黑箱”，从而发掘技术未来的发展取向。人工智能主播主要存在文本、语音、图像三个技术搭建维度，其中，文本维度指新闻文稿的生产，是人工智能主播的内容基础，从传统的新闻采访、写作、编辑、校对流程转化为运用算法和大数据技术对信息进行检索和抓取，按照新闻写作的特定模式进行处理加工，从而实现新闻写作的自动化；语音维度指有声语言表达，通过采集低底噪的声音素材，运用算法生产出高质量的合成语音，人工智能驱动的语音生产系统能够学习发音人的声音质量特征和新闻阅读方法，甚至能够针对口语发音特点进行轻声、儿化音等发音的识别和转化，使之更接近于人类语音的自然程度；图像维度指形象的塑造，使受众无需通过想象在头脑中勾勒传播者的外形，人工智能主播也得以通过视觉甚至触觉途径进行非语言表达。以这三方面的技术迭代为基础，人工智能主播能够成为新闻编辑室的外化，进而实现类型化和个性化。

（一）新闻编辑室的外化

基于技术搭建的基础性程度及其实现的难易水平，人工智能主播经历了三个进化节点。节点一是声音的文本转化，即对已有文本的有声化。2018年央视推出的《创新中国》纪录片，解说词部分使用了已故配音演员李易的声音，被业界视为世界首部利用人工智能模拟人声完成配音的大型纪录片。在声音的文本转化阶段，技术主要用于学习特定发音人的播读惯习并提取发音音频的最小语音单位，从而在确定文本的前提下，以高效率、精简人工的方式实现声音的批量产出。在此阶段，声音不再是独一无二、不可复制的传播介质，而被技术赋予了流水线式的生产模式，从而在制作环节实现了声音的“自动化”。但这一阶段的人工智能语音生产只能在给定文本的前提下进行声音的批量产出，虽具有高效、成本低廉的优势，但依赖于既有文本，只能“照本宣科”。

节点二是智能语音对话。这一阶段人工智能语音可以实现信息发布和语音交互的整合，自动化生产能力进一步提升。文本的自生产能力、语音识别、口语理解和对话管理等技术实现对语境的理解和把握，使结合语境信息理解会话含义并生成自然语言应答成为可能；情感语音合成技术拟合人类语音的自然度，从而提升交互体验。这一阶段的智能语音大多以助手的身份搭载于移动电话、智能音箱、智能穿戴设备的应用程序当中，用以在对话中完成任务，在新闻传播领域表现为人工智能主播对文本、传播场景等的适切能力，为人工智能主播脱离人为干预进行内容生产，及与人类主持人协同合作提供了技术基础。

节点三是多模态交互。目前人工智能主播在虚拟数字型和物理实体型两类中都已有投入市场实际应用的成果。物理实体型以Sophia和Erica等机器人为代表，以实体的类人形象出现，通过技术模仿人类肌肉运动，从而实现微表情和肢体语言的表达、识别和回应。在实际应用中，这类机器人一般会进入实景演播间，参与访谈和播报工作。另一类虚拟数字型机器人通过计算机动画技术（Computer Graphics）进行化身（Avatar）的生成、驱动及渲染，最终呈现模拟真人或卡通的虚拟动画形象。其传媒应用更为广泛，如2018年央视新闻《直播长江》栏目中以康辉为原型的虚拟主持人“康晓辉”。在与人类形象的近似程度区间内，技术已经扩展到相当的范围，但根据恐怖谷理论，机器人与人类外形达到某一程度的相似时，可能会引起观看者的反感，因此有必要进行人工智能主播外观与传播效果影响因素的相关研究。在目前的技术支持下，文字依然是基础，声音和虚拟形象通过多模态融合生成技术在短时间内快速生成虚拟演播室内容，从而为视听传播的基本元素提供技术支持。

以上三个技术进化节点使人工智能主播得以承担传统新闻编辑室外化的功能，叠加了新闻编辑室与主播两重角色。在传统视听生产模式中，新闻编辑室承担信息收集、新闻采写和内容分发的后台职能，播音员主持人通常在新闻采写与内容分发环节之间，以另一工种或部门的身份在前台参与新闻创作。而人工智能主播综合了新闻生产前后台的各项职能，在一整套算法支持下完成新闻内容的自动化生产、播报和分发。目前人工智能在媒体行业的应用已经覆盖了内容推荐、受众参与、增强受众体验、信息优化、内容管理、内容创作、受众洞察和自动化运营八个方面（Chan-Olmsted，2019），因而人工智能主播并非“编辑室+主播”的简单叠加，而是基于大数据的信息收集、基于“机器人写作”算法程序的新闻采写、基于个性推送和交互体验式的内容分发与新闻播报功能自动化生产的整合，以此达到“1+1>2”的效果。

（二）类型化

多元的视听节目形态需要多元的人工智能主播类型。由于新闻播报几乎不涉及访谈、互动等需主播临场反应并进行即兴表达的内容，相关技术已相对成熟完备，目前以新华社的“新小萌”“新小浩”等为代表的已在传媒领域进行正式运营的人工智能主播仍然以传统的新闻播报为主。而参考视听传播的节目形态，在现场报道、镜头前访问、镜头前述评及节目主持等其他节目形态当中，人工智能主播仍无法以主控的身份独立完成。在湖南卫视综艺节目《我是未来》中担任嘉宾主持的机器人“小冰”，以及2019年央视网络春晚出现在观众面前的虚拟主持人“小小撒”，虽然能够与人类主持人现场互动，但存在依照台本进行人工干预之嫌，此后也并未投入批量产出，可见在新闻播报以外的节目形态中，人工智能主播还尚未实现完全的自动化。人工智能主播能否突破单一类型，适配多样的视听节目形态，显然成为其替代人类播音员主持人的技术痛点之一。

（三）个性化

类型化重在聚类，而个性化强调细分。人工智能主播的个性化趋向聚焦于精准对接用户需求。克利福德·纳斯（Clifford Nass）等人建立的CASA范式发现人类无意识地将与人际互动中相同的社交启发式（social herustic）应用于机器，并据此发现“一级社会响应”：用户不仅能识别计算机的个性，并且能将其应用于社会规则；以及“二级社会响应”：计算机个性被用户识别后引发用户的一系列微妙复杂的态度和行为变化（Nass & Moon，2000；Nass & Lee，2001），由此推断，兼备拟人化特征和人工智能技术的人工智能主播，可能会被用户视为比一般媒介更为人性化的存在，用户可能会需要人工智能主播的个性化表现，以期加强“人际”交流感。已有一些实证研究聚焦用户和机器人双方的个性化特征进行了微观探索：在认知层面，研究发现用户可以识别机器人的个性特征，双方个性的相似或互补影响到用户对机器人吸引力和社交性的感知（Lee，et al.，2006）；在态度层面，有研究证实用户性别、年龄、对机器人的既有态度和使用经验等是影响用户态度的有效因素（Xu，2019）；在行为层面，有研究表明在接受智能助理商品推荐的过程中，针对用户特征实现个性化定制的智能助理对用户购买意愿具有更加积极的影响（Hamilton，et al.，2021）。场景化时代点对点、交互式的传播模式要求人工智能主播成为可供个人定制的“私人助理”，人工智能主播的一切特征均可通过改变参数实现最高水平的用户满意度，将成为人工智能主播功能进化路径又一亟待达成的目标。

二

面向类型化、个性化的人工智能主播：

技术设计框架的搭建

如上所述人工智能主播的进化路径中，新闻编辑部的外化已基本达成，类型化与个性化仍处于未完成阶段。类型化与个性化的重点在于“聚类”与“细分”，均指向一套更系统且细致的设计框架。

在人机交互领域的相关研究中，已有学者试图通过建立机器人的设计策略提升人机交互效果，并提出单一的设计视角已经无法满足所有潜在用户和由计算机中介的人类活动，技术设计需要以更多元化的视角、更深入的知识以及更有力量的表述去阐释更广泛的人机交互模式和交互现象（Stephanidis，2001）。有研究提出基于外观、信息传播模式、社会规范、自主性和互动性的设计框架（Bartneck & Forlizzi，2004），也有研究基于人形社交机器人的人机交互与人际交往的相似性，认为其交互基于语言、关系和规范三个维度（Zhao，2006），还有学者认为应将人际传播的心理、语言、关系、政策和伦理纳入智能中介传播（Intelligence-Mediated Communication）的技术设计（Hancock，Naaman & Levy，2020），以及基于用户调查所确定的外观和感觉、互动模式、社会角色、功能预期四个设计维度（Lee，et al.，2012）。基于前人的既有框架以及人工智能主播的技术进化路径，本文归纳出人工智能主播以语言符号为表现形式，以角色和规范为基础逻辑的建构框架：

（一）语言符号

语言是重要的社交线索，能够在人机交互过程中高效地对信息进行传达、协商和修正（Fischer，2019）。播音员主持人通过有声语言和非语言符号传播信息，相应的，人工智能主播的机器表达由自然语言及非语言符号构成。其中，自然语言是文本基础，自然语言处理技术（Natural Language Processing）可实现对自然语言的理解和生成，从而实现话语内容的输出。随着智能水平的提升，新闻生产流程将进行重组，新闻收集、筛选和写作可能融合为同一阶段，从而在几秒钟内产出新闻产品（Wu，Tandoc & Salmon，2019）。基于“打包式”产出的文本，人工智能主播不同于传统主播的信息传播中介角色，实现自主性和能动性的超越。

非语言包括人工智能主播的声音形象、外观、身体语言等。在人际传播研究中，非语言符号包括面部表情、目光接触与注视、人际空间距离、身体接触、动作举止、外表、时间、空间、嗓音（陈力丹，2006）。聚焦到人工智能主播所使用的非语言符号可以归纳为外观及声音形象两类，外观指人工智能主播的外在形象及特征，包括与自然人的近似程度、神态、肢体语言等，已有研究探索了机器人身势（kinesics）、距离（proxemics）、触觉（haptics）和时间（chronemics）的多模态非语言传播对用户认知框架（Cognitive Framing）、情绪识别及反馈（Emotion Recognition and Response）、行为反应（Behavioral Response）、任务绩效（Task Performance）的影响（Saunderson & Nejat，2019），还有研究证实人机对视有助于增加机器人的社交性，使用户更趋向于将机器人视为人类（Kompatsiari，et al.，2017），以及相对于机械外观，人形外观的机器人用户接受度更高，且机器人外观与动作的匹配至关重要（Hameed，et al.，2016）；声音形象主要包括声音性别、音色、语速、音量、口音等，通过语音要素的变化完成人工智能主播的性别、年龄乃至性格塑造，有研究通过调整语速、音量、基频和音域区分机器人声音性格的内向与外向（Lee & Nass，2005），另有研究发现用户对贴近人类自然声音的机器人的信任度高于合成声音的机器人（Xu，2019），以及计算机声音的性别能够影响用户的决策、认同度和计算机的吸引力（Lee，Nass & Brave，2000）。

纯粹依靠声音传播的智能语音主播，即使用VUI（voice user interface）人机交互模式的主播，依赖于声音形象塑造达成人格化传播。而具备虚拟形象的人工智能主播的人格化，则是外观和声音形象的综合作用。有研究发现机器人声音的性别、是否具备实体外观与用户的性别之间的相互作用会影响用户的态度和感知（Crowelly，et al.，2009）。机器人形象和声音的一致性可能会提高用户的社会响应（Xu，2019），且在形象和声音共同作用下的拟人程度越高，越能引发用户的共情（Riek，et al.，2009）。以及在聚焦机器人个性的HRI领域研究中，学者也考虑到了外观和声音形象对于机器人个性塑造的复合作用（Lee，et al.，2006）。此外，自然语言和非语言的作用并非割裂，有研究表明，声音个性和文本个性之间的一致性会增加社会存在感（Lee & Nass，2005）。

由相关研究可知，人工智能主播语言符号的使用是传播效果的重要影响因素。语言符号的恰当使用能够让人工智能主播具备“人格化”的传播能力，从而达到与人类主播相近的传播效果。但已有实验表明，语言符号是一个较为复杂的、相互作用的系统，除了需要考虑到用户特征和传播情境之外，任何一个维度的变化都有可能造成牵一发而动全身的影响，对更系统且细致的研究提出了要求。

（二）角色

“人际传播发生于有关系存在的环境里......关系双方的相互行为既基于本人扮演的角色，也基于对方扮演的角色。”（罗洛夫，1982/1997：22）机器人的社会角色是指机器人作为行动者的预期社会地位（Lee，et al.，2012），在人机交互场景下，人工智能主播自身的产品定位以及用户对主播的角色期望共同定义了人工智能主播的角色。社会学角色理论中将角色分为先赋角色和自致角色两类（丁水木，1987），人工智能主播的属性和职业属于产品设计决定的先赋角色，而用户定义的智能主播角色属非先天决定的自致角色，为强调人机关系的重要影响，本文将这类角色命名为关系性角色。人工智能主播的先赋角色和关系性角色共同作用于人机交互行为之中。

先赋角色是由遗传、血缘等先天因素决定的角色（丁水木，1987），就人工智能主播而言是产品设计者及算法工程师为其设定的基础特征和运行逻辑。首先，人工智能主播的基本属性决定了在技术无法乱真，或是已告知用户其机器人身份的情况下，人工智能主播只能以非自然人的角色与用户交互，即便可能出现媒体等同，鉴于用户理性也需要通过技术调适增加机器人的社会临场感（social presence），同时提防恐怖谷等负面效果的出现。其次，人工智能主播的职业角色也属于先赋角色，媒介机构、官方和受众形塑的职业意识、专业主义以及播音员主持人自身的专业话语实践共同建构了播音员主持人的职业边界。在产品设计阶段，设计者与工程师对标人类社会中职业群体的特征与功能，使人工智能机器人成为“圈内人”，如新华社、人民日报、中央电视台相继推出的人工智能主播通过对真人主播进行人脸识别、人脸建模、唇语识别、情感迁移等技术生成AI分身模型，在形象、语言表达等方面与人类主播无限贴近。

关系性角色部分源于先赋角色，部分与用户习惯、用户特点相关，是人机交互过程中与用户共同建构自我的结果。有研究提出人机交往的两个范式，其一为监护人范式（the Caretaker Paradigm），用户扮演“监护人”角色，通过识别并回应机器人的情感和社交需求，对机器人进行情感投资、心理投资和生理投资，让机器人保持“快乐”；其二为同伴范式（the Companion Paradigm），将机器人视为人类的监护人或助手，协助完成某些任务以满足用户需求（Dautenhahn，2007）。传统广电播音员主持人服务于观众传播信息，双方关系近似于同伴范式。而在人机交互中，人工智能主播和用户之间的关系可能转变为两个范式的共存，在对话式新闻等新形式下，用户与人工智能主播之间的关系趋于对等：人工智能主播为提高用户黏性而着力于提升信息传播的质量，用户为获取信息而努力维持与主播的交互，双方均可能扮演“监护人”或“同伴”角色。除此之外，还有研究将机器人的社会角色分为助手、同伴和娱乐者（Lee，et al.，2012）。人工智能主播的基本功能是帮助用户获取资讯，同时基于不同的信息传播内容和形式，有可能使用户感知到陪伴和快乐。参考这一角色分类，助手角色是人工智能主播的基本角色，并可能兼任同伴和娱乐者角色。

（三）规范

美国学者特伦霍姆（Trenholm）和延森（Jenson）将传播能力定义为“一个人以有效得体的方式进行传播的能力”（Trenholm & Jensen，1996），陈力丹认为其中“得体”是指“以适当的方式传播，符合一般的社会行为规范”，尤其非语言符号的传播“带有较强的文化规定性”（陈力丹，2006），可见社会规范在人际传播中的基础性地位。在人机交互中社会规范体现为一种“社交智能”，有学者认为社交智能应当被视作智能机器人的基本要素，在工具性之外也应当以一种人类可接受的方式嵌入使用者的日常生活。机器人礼仪（robotiquette）应当被纳入研究范畴，以创造人类舒适的、可接受的机器人行为社会规则（Dautenhahn，2007）。机器人行为规范主要源于三方面的塑造：人际交往规范、机器人文化以及产品设计的“预驯化”。

人际交往规范侧重于人类间的社会互动惯习影响下用户对于人机交互方式的预期，不仅影响个人技术选择（Vishwanath & Chen，2008），民族、宗教、种族和社会经济阶层等社会因素也是影响人们交流和感知技术的重要因素。在以中、美、德三国用户作为对象的研究中，发现了不同国家参与者在机器人可爱度、参与度、满意度、信任度评价上的文化差异（Li，Rau & Li，2010）。种族认同是人机交往的重要影响因素，用户对于具备与自身同种族特征的机器人评价更高，将机器人视为人类的拟人化程度也更强（Eyssel & Kuchenbrandt，2012）。有研究发现日本用户更喜欢说日语的机器人，而埃及用户更喜欢说阿拉伯语的机器人，且外表相同但使用非母语的机器人在两种文化中均引起用户的不适（Trovato，et al.，2013），因此应把不同国家文化之下用户感知的社交技巧、语言、知识、价值观、规范、行为、实体及物理环境纳入机器人设计研究的重要内容，将本土语境所赋予的文化意义作为设计文化契合性（culturally appropriate）机器人的关键因素（Lee，et al.，2012）。除针对种族文化差异的研究外，学者也关注到了多种社会因素的共同作用，人际交往中社会群体差异所造成的社会距离（social distance），包括物理距离、权力距离和任务距离，是人机交往中用户体验感的重要影响因素（Kim & Mutlu，2014）。

机器人文化存在于科技展览、文学、戏剧、电影、电视和计算机文化当中。1920年捷克剧作家卡雷尔·卡佩克（Karel Čapek）在他的戏剧“R.U.R.”中创造了“Robot”一词，剧中演员用“机器人的声音”进行表演。在虚构作品当中，机器人通常以一种未来主义的形式出现，如《异形》《我，机器人》等电影作品，通过不自然的合成语音、机械的语言表达和肢体动作达到科幻效果，形塑了受众对于人机交往的文化想象。

规范的建立是人与机器相互驯化的结果。预驯化（pre-domestication）是指人们将新技术驯化并在日常生活中具体使用之前的技术采用阶段，人们作为新技术潜在的未来使用者，需要被吸引、被邀请、被干预来熟悉新技术（Saariketo，2018）。1938年，第一台电子对话机器Voder诞生，与人类的发声原理不同，Voder通过电震动发出与人类近似的语音影响了机器人语音规范的建立，而后Siri、Cortana等语音助手的问世，也一定程度上塑造了语音助手“热情而不献媚，聪明而不傲慢”（Humphry & Chesher，2020）的女性角色的惯例。预驯化是以技术为主体确立人机交互的惯例，强调技术的能动性，提示在学习和遵循人际交往规范的同时，确立一套新的人机交往规范。

由上述可知，语言符号、角色、规范建构的设计框架是一个复杂的有机系统。语言符号、角色和规范三者相互作用、相互影响，且较为全面地涵括了各种影响因素，以此指导人工智能主播在与人类社会交往的过程中发挥自身职能。在人工智能主播的技术建构阶段，应当尽可能穷尽框架内的影响因素，挖掘因素间的相互影响，实现人工智能主播在新闻编辑室外化基础上的类型化和个性化。

三

与人共存：人工智能主播的未来发展

自2000年以来，日韩两国就在为不晚于2030年出现的人机共存社会做准备（Weng，Chen & Sun，2009）。在第八代小冰发布会上，小冰公司董事长沈向洋提出未来AIbeings的数量将超过真实人类人口。展望未来，机器人将可能成为联结虚拟世界和现实世界的行动者，构建一个人机共生的未来社会。技术探索阶段的人工智能主播跟随模仿人类主播工作内容中规律性、重复性较强的部分，引发了学界和业界对于人类播音员主持人是否面临失业的探讨。但根据人工智能主播的进化逻辑，未来人工智能主播的应用场景可能与人类主播并不完全重合，这不仅是因为在政治导向、深层语义的理解表达等方面依然存在难以逾越的技术壁垒，也是因为人工智能主播在存在方式、应用场景方面的广度可能会超越传统意义上的播音员主持人。在与人共存的过程中，人工智能主播的技术进化将从以设计者为中心的“预驯化”阶段走向以用户为中心的“驯化”阶段。凭借人工智能技术的机器学习能力，人工智能主播的类型化和个性化将与个体使用行为紧密联结，从而在进入家庭乃至私人的日常生活领域后展现出更大的可能性。

（一）突破传统视听范式

在未来，人工智能主播有可能以全息、全能、互联的方式突破传统以单向、二维为主的视听范式。全息是指依托于物联网、5G等新技术发展，人工智能主播的传播将不仅仅局限于屏幕或音箱，可能会搭载可穿戴设备，结合全息投影技术、虚拟现实技术等实现沉浸体验更强的多模态感官交互。在全息传播下，人工智能主播与用户间的交互将融合虚拟与现实，突出传播主体的在场和具身关系，营造超越传统视听的传播形态和接收体验。全能是指随着技术赋能和市场的进一步打通，未来人工智能主播的功能将不局限于传统视听意义上的新闻播报与节目主持，而是将新闻传播功能纳入拥有多种分身（载体），应用于多个场景，具有复合功能的全能型机器人当中。目前智能机器人还带有较强的功能、场景区隔，如阿里巴巴的天猫精灵、百度公司的小度、小米公司的小爱、微软（现属北京红棉小冰公司）小冰等，都主要应用于各自公司的平台及产品，这虽然为智能机器人打上了鲜明的品牌烙印，但也制造了数据孤岛和用户窄化。未来随着技术流动性的进一步加强及市场的成熟，适配用户的个人机器人有可能在不同平台或产品载体中通用，人工智能主播将随之演变为服务于个人的“新闻助手”或个人智能助手的“新闻功能”。第三，未来人工智能主播将作为“超媒介”实现数据与人、数据与数据、机器与人之间的联接：人工智能主播依靠算法收集并处理海量数据，成为大数据与用户之间的传播中介；在交互过程中通过用户话语中直接或潜在的数据信息获取用户相关偏好和信息需求，实现数据在输入、输出过程中的双向流动，实现数据联接；随技术进步，人工智能主播将成为拥有思维大脑、能够进行自我表达的传播者，从而超越工具身份，以更加平等和主动的姿态嵌入人类社会，实现机器与人的深度互联。

（二）形成部分替代、部分协作的人机协同局面

人工智能主播凭借其强大的数据处理能力，可作为播音员主持人的“眼睛”和“耳朵”迅速处理信息，在部分节目中起到辅助新闻报道、丰富视听表达的作用。

当下的智能技术还存在相当的技术壁垒，如常识性知识难以编程的问题（Ein-Dor，1999），解释性不对称（interpretative asymmetry）问题（Collins，1997），非索引（non-indexical）问题（Zhao，2006）等都是随算法而来的固有问题，这些技术壁垒关系到播音主持传播活动的基础能力，致使人工智能主播的应用受限。另考虑到我国已有过百所院校设置播音主持专业，播音主持专业人才尚且供过于求，传媒机构引进人工智能主播的必要性不强。因此人工智能主播与播音员主持人部分替代、部分协作的局面将会在传媒机构长期存在。人工智能主播为新闻编辑室及播音主持行业带来的改变将不会是一些学者所认为的急剧的突破和颠覆，而更可能表现为比预想中更为温和、渐进的发展过程。与此同时，未来人工智能主播的常态化使用将数字化一部分规律性工作，部分生产力的释放倒逼播音员主持人发挥更大能动性和创造性以维持这一行业人的主体地位。这一过程客观上将帮助播音员主持人重新确认播音员主持人的核心价值——以整体性思维为基础，与社会环境、文化背景相联结，以能动性、创造力、想象力为核心能力。

（三）重构关系

首先，人工智能主播将以传播过程中传受身份的即时转换打破相对固化的传受关系。目前人工智能主播主要作为传统视听传播角色的数字化形态存在于大众传播平台，尚未完全发挥出人工智能的特色和优势。实际上，不同于传统播音员主持人通过不断“招呼”受众的方式对受众的存在表示认知，人工智能主播在海量数据库、文字语音快速产出能力的加持下能够与受众达成“真实”交互。交互中兼具传受身份的人工智能主播在信息的输出与输入之间习得普适性规范与个性化偏好，形成更近似于人际交往的传受关系。

其次，人工智能主播将可能衍生为用户社会交往中印象整饰的“道具”。未来基于个性化定制和社交功能的拓展，人工智能主播将有可能作为标有用户个性化标签的私有物品，通过社交分享成为用户社会交往中自我角色塑造的一部分。目前投入应用的智能机器人已经能够为用户提供称谓、声音、形象、性格等方面的个性化选择，未来随着个性化定制在维度、程度上的细分，加之对用户潜在偏好的识别和学习，人工智能主播可以成为完全贴合用户需求的、独一无二的用户私有物，并作为用户自我呈现的中介，在未来机器人社会中以此展现个人的身份、圈层、价值观。

再次，人工智能主播将重构新闻可信度的衡量逻辑。媒介中的社会关系，无论是广播电视媒介角色与受众之间的准社会关系，还是互联网中数字化的人际交往，关系双方都是人类主体。而人工智能主播作为虚拟存在，本质上是用代码表征的“技术具身化的主体”（孙玮，2018），用户与人工智能主播实质上形成的是一种崭新的数字化关系，这从根本上决定了信任关系的形成与以往存在差异。此外，智能新闻生产的逻辑与传统新闻生产相比有了颠覆性改变，影响到新闻可信度的衡量。有研究表明，用户信任算法的前提是算法的公平、负责、透明和可解释性（Shin，2020），但实际上，非专业用户很难了解算法“黑箱”中的数据源、数据使用及数据去向。对比之下，播音员主持人作为人格化的信息传播中介，表征着传媒机构新闻制作流程中诸多部门人员的层层审核，并出于专业性责任和维护声誉的需要在最后一环进行把关，受众出于对新闻机构地位及行业声誉的感知，及与播音员主持人所建立的准社会关系形成媒介信任。而人工智能主播的智能化程度越深入，就越脱离人工而倚赖算法。人工智能主播对新闻内容的核查把关源自于其内生算法，对于非专业用户而言不公开、不透明，就其内部机制而言缺乏不同主体间的监督制衡，在事后问责阶段缺乏明确的责任主体和条文制约，致使算法失范的隐匿化和合法化。而在另一方面，计算机生成的新闻可能被视为具有更高的可信度和专业性（Graefe，et al.，2018），这可能是因为算法被认为摒弃了人的感性和主观意识，在新闻表述上显得更加理性客观。以上矛盾性的论述表明，在算法的深度进驻下新闻可信度的衡量逻辑、人与人工智能主播的信任关系亟待重新加以审视。

人工智能主播对播音员主持人的部分替代体现了大众传播由人格化向工业化的复归。然而其技术进化路径表明，智能主播的演进一直是以对人生物性和社会性的模拟为底层逻辑，以获得“拟主体性”为最终落点，未来人工智能主播将突破媒介产品的单一属性，在更加宏观的媒介传播生态领域展现“人-技”互构、互驯的张力作用。在可预见的人与技术的主体性争夺中，应当进一步关注技术设计的重要性，使“智能体设计”成为一种向技术开发者、平台渠道和用户三方赋权的手段，帮助实现人机的共生与协同。

本文系简写版，参考文献从略，原文刊载于《国际新闻界》2022年第2期。

订阅信息

全国各地邮局均可订阅《国际新闻界》，国内邮发代号：82-849，欢迎您订阅！

您也可通过下方二维码或网址https://weidian.com/?userid=1185747182，进入国际新闻界微店，购买当期杂志和过刊。

您还可访问《国际新闻界》官方网站 http://cjjc.ruc.edu.cn/ ，免费获取往期pdf版本。

如有侵权，请联系本站删除！

上一篇： 钱理群：哦，你是我的父亲
下一篇： 重庆大学新闻学院2022年优秀大学生学术夏令营招生简章

投稿问答最小化 关闭

周勇、郝君怡 | 建构与驯化：人工智能主播的技术路径与演化逻辑

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

周勇、郝君怡 | 建构与驯化：人工智能主播的技术路径与演化逻辑

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭