投稿问答最小化  关闭

万维书刊APP下载

镜像与花园之辩:算法歧视争议下的价值目标与伦理实践——基于工程师的访谈

2024/1/29 17:01:15  阅读:47 发布者:

摘要

算法歧视现象构成个人数字化生存的伦理挑战。通过访谈22位国内算法工程师,本研究从技术的社会建构视角出发,探讨了他们的价值目标和伦理实践如何作用于有偏算法系统之产生、发展与应用。研究发现,算法歧视与工程师对真实和准确的理解、追求有关——他们试图打造“镜像世界”时,以数据、社会、统计因果等为“求真”的依归,最终导致了歧视的加固与强化;同时,面向算法公平和正义的算法“向善”,被“求真求准”的价值目标和特定业务目标不断挤压;工程师所受教育和所处组织环境,让他们认为 “求善”并非他们的职责。加上公平等伦理概念本身难以量化,更为建设“数字花园”制造了技术难度。这些都让“求善”沦为工程师的一种弹性选择,影响了他们“去偏”和 “消歧”的伦理实践方案。这一研究为理解算法歧视提供了来自工程师伦理层面的实证依据,为理解有偏算法的社会建构提供了基于中国语境的业内见解。

作者简介

黄阳坤,清华大学新闻与传播学院博士研究生。

俞雅芸(通讯作者),清华大学新闻与传播学院博士研究生。

基金项目

本文系国家社科基金重大项目“智能时代的信息价值观引领研究”(项目编号: 18ZDA307)的阶段性成果。

算法以代码形式接入媒介,广泛介入普罗大众的日常生活;在这一进程中,算法的负面影响逐渐显露,伦理风险问题成为近年来算法研究的重要面向。对算法霸权、算法歧视、算法黑箱、算法茧房等问题的讨论,折射出人们对个体算法化生存和社会算法化运转的忧思。

其中,算法歧视作为一个显要问题,其学术取径正循传统歧视研究的议程,从定义、类型、归因、影响、治理等角度徐徐展开。社会科学研究者已在歧视发现(discrimination discovery)上提供了不少经验证据,但在歧视溯源方面的论断多于实证。明确何种因素影响着有偏技术系统的产生与应用,有助于从根源认识算法歧视现象,值得实证层面的努力。

鉴于算法的一般技术属性,及其本身独特的“黑箱”属性,从技术设计者,即算法工程师的角度切入相对直接和清晰,也是既有算法歧视研究中相对缺乏的一种视角。基于此,通过22次半结构化访谈,本研究对算法工程师对于有偏算法系统的伦理观念与伦理实践展开考察,并在技术的社会建构(social construction of technologySCOT)视角下分析了他们的伦理何以影响歧视性算法系统的产生、发展与应用。

文献综述

(一)作为技术现实的算法歧视:有偏技术的社会建构

作为近年屡被经验研究证实的技术现象,算法歧视关涉两个关键概念——算法系统与歧视现象。一般而言,算法被认为是“用指定的计算将输入数据转换为所需输出的编码程序”(Gillespie2014);歧视则指向“对特定群体成员的差别对待”(American Psychological Association2022)。故所谓算法歧视,可理解为“算法技术对特定某人或某群体的区别对待”,是“算法妨害(algorithmic nuisance)” 的一类导因(Balkin2017)。

社会科学研究者意识到,从技术内部入手,采用如检查伪代码/源代码等方法研究算法存在诸多限制与挑战(Kitchin2017),一些研究人员开始从算法输出(algorithmic output)的外部切入,发现算法中存在种族、性别、年龄、地域等不同类型的歧视(Papakyriakopoulos & Mboya2023;塔娜,林聪,2023)。这种外部的审计性思路证明:算法歧视不止于一个技术话题,它真实地影响大众数字化生存。

歧视的发掘固然重要,但显然不应是算法歧视研究的终点。在确定了算法工具的歧视性表现之后,另一问题油然而生:一个有偏的技术系统何以产生?就技术的社会建构视角而言,算法歧视在发生逻辑上不应被认为独立于人类社会中的一般歧视,它是技术社会化的后果;虽然算法歧视会将过去既有的歧视现实“浪漫化”,但事实上,前算法时代同样是一个充斥着商业管理层与权力掮客间不透明交易的黑箱社会(Chander2016)。

类似观点指引着对算法歧视的溯源,研究者探讨了算法歧视与人类心理、社会结构的联系(CaliskanBryson & Narayanan2017;张玉宏,秦志光,肖乐, 2017)。在有偏技术之社会建构的相关论断中,作为技术设计者的算法工程师常被视作偏见与歧视的源头之一,被认为有意或无意地向算法植入了自身的偏见认知,导致了歧视性后果(Kitchin2017;刘友华,2019;许向东,王怡溪,2020)。

然而,相比于算法歧视客观现象方面的丰厚证据,学界对算法歧视发生逻辑的探讨充满着学术想象。就备受质疑的工程师群体而言,鲜有实证研究调查算法歧视与算法工程师之间的关系。但就理论本位而言,确定技术之社会建构的过程,即发掘“相关社会群体(relevant social group)”并观察他们对技术的认识如何走向“稳定化(stabilization)”和“闭合(closure)”的过程(BijkerHughes & Pinch19894)。算法工程师了解技术、离技术最近,又常隐于技术黑箱与巨型企业的架构之下,是不可缺位于算法社会建构视角的重要“相关社会群体”。他们如何影响歧视性算法系统的产生、发展与应用?这一问题的答案可为理解算法歧视的发生提供更细致且专业的洞察。

(二)从伦理进入算法歧视:技术社会建构与伦理间的关系

Kitchin2017)所言,算法歧视的切入视角可充分打开:技术、计算、数学、政治、经济、文化、哲学、伦理等等。其中,从伦理进入和探讨歧视问题有其天然性——就概念而言,伦理在中国被解释为“人们相互关系的行为准则”(《辞海》编辑委员会,2021),在西方被界定为“指导个人行为或活动进行的道德准则”(Oxford University Press2017)。结合来看,伦理作为反映社会集体意志的准则,引导着人类社会中的关系、行为与活动。而歧视本身指向人类社会中一种“区别对待(differential treatment)”的行为和活动(Lippert-Rasmussen2013),本质上是一种不受人类社会欢迎的不平等关系,与伦理之间正好形成对冲。换言之,歧视在一定程度上即伦理旨在引导和改善的对象之一,反歧视(anti-discrimination)作为一种伦理准则贯穿于不同国家和文化。就算法歧视而言,学者们认为,一个有歧视的算法涉及不公、污名、隐私泄露、能力限制等诸多伦理问题(MittelstadtAlloTaddeoWachter & Floridi2016;刘培,池忠军,2019;吴飞,2022)。

当算法歧视被视作一个伦理问题后,研究者们再探讨技术的社会建构时便面临一些新问题:首先,伦理在算法的社会建构过程中发挥什么作用?SCOT理论其实对技术社会建构过程中的伦理之用一直保持关注,认为人的道德与伦理等边界决定了技术的能力边界(can do)与责任边界(should do)(Woolgar1987),技术设计和创新活动中渗透着复杂的社会价值和伦理因素(段伟文,2000)。在智能时代,价值敏感设计(value sensitive design)的理念勃兴,伦理价值观正广泛融于智能技术的开发建构进程(古天龙,马露,李龙,闫茹,2022)。因此,同政治、商业和科学一样,伦理可作为一种社会性要素作用于技术的演化(喻国明,丁汉青,刘彧晗,2022);在有偏算法的社会建构研究上,伦理不容忽视。

在明确了技术社会建构过程中的伦理之用后,另一个问题在于:算法的伦理由哪些社会力量建构?学者认为,算法技术的社会性背后是“依托技术逻辑而形成的制度延展或文化实践”(孙萍,2021),算法系统本质上由代码之外的东西塑造,包括个人偏好、结构性偏见或者社会性评价框架(Seaver2018),作为人之行动指南的伦理由此接入算法伦理中。国外基于数据公司的人类学调查展现了立体的图景——算法的伦理除了受组织间关系、各种非人代理、地缘政治等调适,更深受设计者与使用者之认识论、意义系统和实践的影响(Kotliar2021)。面向数据科学家的访谈进一步表明,算法的伦理更多地靠个人道德能动性驱动,与个人的倾向、偏好和价值观关系密切(AvnoonKotliar & Rivnai-Bahir2023)。这些结果提示,一个有价值观的算法与其背后的技术人员有直接联系,调研算法工程师伦理(engineering ethics)有其必要性。

上述研究做出了开拓性努力,试图揭示设计者的专业伦理如何与算法技术的伦理产生联系。而算法的伦理问题多元、复杂,伦理的“相对情境性”意味着人们在面对不同伦理问题时会表现出差异化的伦理原则和实践(李建华,202138),这决定了工程师面向算法歧视的伦理观念和实践很难通用于其他伦理问题。目前面向具体问题的伦理观研究缺乏,但它对认识和化解具体的伦理风险有独到价值。据此,本研究的问题进一步明确:算法工程师的伦理反思路径和伦理实践方案,如何影响着一个有歧视性的算法系统的产生、发展与应用?

(三)模糊地带?技术人员的伦理研究反思

据前文梳理,在技术的社会建构视角下,作为有偏技术的重要相关社会群体,算法工程师对算法歧视争议的伦理观念和实践取向可能影响有偏技术的产生、发展与应用。现有研究中,面向数据伦理和技术伦理的关注相对密集,对技术人员专业伦理的实证考察则较少,少数研究调查了技术人员伦理水平(Association of Nordic Engineers2018)、技术人员伦理与其他主体(如公司)伦理间的关系等(RyanChristodoulouAntoniou & Iordanou2022)。

国内几项早期研究提供了一些洞察:调查问卷显示,传媒业算法工程师的伦理水平一般,他们的伦理观,尤其是对“及时”“透明”和“分享”理念的理解,处于“模糊”状态(袁帆,严三九,2020);工程师被形容为“局内的外人”,被认为对伦理问题的了解程度低、威胁感知弱和改善倾向保守(严三九,袁帆, 2019)。特别地,袁帆与严三九(2020)的问卷专门调查了工程师“对算法内置歧视的排除”的伦理认识:数据显示,工程师群体在算法歧视这一问题上认知不均,具体表现在相关题项得分的标准差较大。另一项针对技术从业者大数据伦理的中美比较研究再次定位了技术从业者伦理的模糊性(Di2023),还指出了他们伦理观的复杂性,发现技术人员在大数据使用的伦理道德上存在矛盾。这些研究结果显示,与算法和数据相关的从业人员在伦理上整体表现得混沌糊涂、漠不关心和游移不决。

而另外一项基于“黑客松”(hackathon)活动开展的民族志研究则提供了不同的声音:研究者发现技术人员在面对不确定的伦理风险面前,其实很渴求能同时有基于责任伦理的“确定节点”及面向行动和问责框架的“怀疑空间”,以指导技术实践(Shklovski & Némethy2023)。OrrDavis2020)面向澳洲人工智能从业者的访谈则表明,在复杂的社会技术网络中,技术人员排除了对人工智能社会影响的简单责任归属;他们将伦理责任分给其他参与者和相关因素的同时,也为自己保留了一部分。这些研究表明技术人员本身有良好的伦理自觉和责任意识,且对如何开展伦理实践有自己的价值判断,与“局内的外人”等在定调上形成反差。

研究发现的不完全一致,恰好表明技术人员的伦理观与伦理实践是一个有挑战、趣味和探讨空间的议题,同时也提醒:技术人员的教育背景和工作惯习可能令其更常以“具体问题具体分析”的务实思维讨论技术的伦理风险,加之伦理问题具有相对情境性,面向技术人员伦理观的社会科学研究更应慎重选择和设计方法,不同的研究设计可能得到相异的发现,从而影响最终的结论。

研究方法与设计

(一)研究对象招募

基于文献综述,本研究在方法上采择了质性研究的思路:面向一个相对小众的社会群体来调查内隐性和情境化的歧视问题,质性方法所获资料可提供更为丰富的信息。因此,研究循目的性抽样(purposive sampling)和异质性抽样(diversity sampling)的原则,透过社交媒体与人际网络,面向国内算法工程师群体进行了招募,最终纳入了负责不同业务和从业时长不一的22位工程师作为访谈对象(参见表1)。

考虑到歧视与性别等特征有关,笔者根据行业现状,将访谈对象男女比控制在 41左右(王婧雯,马歆,孙丽君,2022),确定了4位女性工程师。由于样本中的女性人数较少,表1未区分性别以避免识别。此外,本研究还隐去了访谈者的姓名和工作单位名称,分别以编号和业务归属代替,以实现模糊化处理。

(二)访谈资料收集

正式开展访谈前,笔者预先对8位有计算机专业背景的学生进行试点访谈。结果表明:受访者对“算法歧视”这一术语的理解不清晰;且有受访者表示这一提法有损其专业认同,对此有反感情绪。

故在正式访谈中,研究者以具体案例素材替代“算法歧视”这一概念展开提问,并根据文献和新闻,确定了5则算法歧视争议案例作为访谈素材,分别是:算法价格歧视(国内某平台通过算法差异化定价进行“大数据杀熟”)、性别歧视(国外某平台招聘算法降低女性求职者简历的权重)、种族歧视(国外某司法裁判算法根据被告再犯风险调整量刑时表现出种族差异)、国别歧视(国外某大语言模型表示应根据原籍国判断是否对犯人施加酷刑)和地域歧视(国内某搜索引擎自动完成算法提示中西部地区人士的负面素质品性与身体特征)。如此设计方便受访者快速进入研究语境和触及中外社会不同算法歧视类型,且规避了直接使用“算法歧视”一词提问所造成的情绪抵触和立场前置。

访谈将上述素材与表2所示的提问指南融会,在20235月底至7月初据受访者的情况和要求择机在线上或线下展开,时间分别在70-120分钟不等,共获48.6万字访谈资料。出于研究伦理的考量,笔者在访谈开始前就以下原则进行了专门说明:(1)正式访谈中,访谈过程将被录音;(2)收集的相关信息在本研究团队成员间共享;(3)访谈内容和个人信息将被严格保密,访谈内容仅用于学术写作和发表,个人信息将被脱敏处理以防止受访者被识别。

(三)访谈资料分析

分析方法上,本研究参考OrrDavis2020),AvnoonKotliarRivnaiBahir2023)等学者的研究思路,将主题分析(thematic analysis)运用至访谈资料分析上。

具体而言,首先,研究者标注了转录材料中有关伦理和道德观念及其对应实践的段落。随后,两位作者分别完成独立编码以生成初步主题(preliminary themes),并附上示例段落。经讨论后,研究者共同确定了一组主题。第一作者基于此对整个访谈语料库进行了再编码,第二作者根据每个主题的示例段落进行抽查,以确保达成共识。上述三角测量、同行检验和反思性的过程增强了分析的严谨性和结论的可信度(Krefting1991)。

研究发现

有别于过去的观点与发现,本次访谈表明,算法工程师本身并不存在针对特定人群的主观恶意和歧视,多数工程师对刻意为之的歧视伤害持坚定的批评和反对态度。此外,当面对算法歧视争议时,他们持有不同取向且相对坚定的伦理与道德观,这些观念决定了他们对哪些技术现象应被归为歧视的价值判断。

具体来说,一方面,算法工程师普遍认同和坚持“求真”的理念,且在该问题上表现出不同的理解层次。他们忠于数据、统计与现实,这令现实世界与在线数据中的歧视被复刻和迁移至算法系统。另一方面,近半数受访工程师也同意算法应当向善、关注公平正义和规避歧视,但这在实现上有技术难度。即便存在实现的可能性,他们也认为“求善”不是自己的工作目标,并就公平和正义的追求何以沦为一种“非善之善”提供了案例解释。

“求真”和“求善”两种理念表现出张力甚至矛盾时,工程师对真实/准确和善良/正义的认识便开始作用于他们面向算法歧视的伦理实践,且与企业组织文化、社会舆论、政府意志等一同反映于工程师的技术调整方案中,最终决定了有(去)偏技术系统的诞生与应用。

(一)打造镜像世界之弊:算法工程师“求真”何以铸错

计算机科学家在上世纪曾提出“镜像世界(mirror world)”的概念,擘画了用数据和算法打造微缩真实世界的技术愿景(Gelernter199349)。在技术从业者的观念体系中,类似理念似乎得到无形传承,受访工程师表达了与之相近的观点:“算法实际完成的是一个简单的决策——尽可能地拟合真实的分布。”(M62023529日)“网络只是一面镜子,反映现实世界的样子。”(M1520236 11日)“我们判断算法优劣以及是否需要调整,还是以它跟真实情况的吻合程度为标准。”(M192023530日)当求真、求准成为一种职业文化时,算法工程师内部对求真的理解又呈现出不同层次:

1. 数据真实

首先,工程师所言的“真实”很大程度上即算法训练数据反映出的事实。他们认为,训练数据集决定了模型的上限,算法无法超越数据中的规律而存在,算法歧视由此被视作是不完美的数据导致的“技术缺憾”。

面向数据的归因倾向指向两个层面:量与质。就量而言,不少工程师认为,算法歧视源于数据集的体量有限。M7以视觉算法为例对此进行阐释:“人脸识别系统对基数较大的群体有更高的识别率……但这倒不是因为系统有偏见,只是部分群体的数据本身很有限,进而造成了识别准确率上的差距。”(202361日)这与访谈中被反复探讨的“算法性别歧视”案例形成呼应——多位访谈者指出,开发者以公司内部员工信息作为算法训练数据,而正是这一数据的体量有限和结构失衡酿成了女性求职者被算法低估的后果。在商业逻辑引导下,企业用于数据丰富(data enrichment)的成本有限,且目前用于工业界算法训练的数据在形态与种类上亦有很大局限,“文本和统计类的数据居多,这些在我们(人类)可感知的信息中其实占比非常低”(M21202366日)。就质而言,许多工程师承认训练集中的确包含低质和有偏的数据。重要的是,有工程师指出在算法训练上,数据量质并举是悖论:“喂给算法的数据越多,数据出问题的概率也就越大。”(M420235 28日)这在大模型和搜索引擎上尤为常见,其吸纳海量数据的同时也习得了网络 “黑暗面”,“trash intrash out(垃圾进、垃圾出)是常态”(M8202364 日)。随着没有量质保证的数据成为算法行业第一性的原料,基于数据的求真求准就令算法偏见和歧视避无可避。

这种对“数据真实”的追逐本身透露出数据主义(dataism)的倾向,让技术面临“刻板型客观”的困境(陈昌凤,2021)。部分受访工程师已对这种倾向有所警惕。一方面,他们同意数据不能刻画现实全貌,组成训练集的数据只是过去式,无法让算法具备捕捉当下和预测现实的能力。另一方面,当基于有限数据的算法系统面对无限的使用场景时,数据驱动的局限被进一步凸显:“我们不可能把所有数据都喂给算法,这导致算法面对没见过的数据时会推理出错。”(M42023528日)基于数据的推测甚至可能与现实完全无关:“算法无法弄清有些数据意味着什么,因为数据可能只是用户无意划拉了两下屏幕产生的。”(M20202361日)尽管如此,受访工程师依旧认为“数据驱动”系算法设计的基本逻辑,仅有一位受访者质疑由数据驱动的求真导向:“如果算法能捕捉到客观世界的规律,那么它应该叫‘物理定理’,又怎么需要我们工程师更新迭代?”(M22202372日)

2. 社会真实

其次,算法工程师对“真实”的理解还指向“社会现实”,此时求真的面向从数据超越至社会层面,更多寄托了他们的专业追求:“最好的算法就是能够还原世界。”(M162023617日)在这一视角下,算法歧视本质上是现实社会症结在算法社会中的复现。

对不同情境下不同类型的算法歧视,受访工程师都有类似观点。就出行平台算法的价格歧视而言,有工程师提出:“不是大数据在杀熟,也不是只有大数据才杀熟,反而是因为平台的信息透明让大家能感受到它在杀熟,但这不是算法造成的,线下也会有这类问题。”(M21202366日)就司法裁判算法的种族歧视而言,有工程师则说:“这个算法的评估结果在种族上有差异,是因为在美国黑人的犯罪率确实比白人高。”(M132023610日)“本质反映了一种具备统计学意义的社会现象。”(M152023611日)

当工程师把“拟合真实世界”内化为专业主张时,他们就将“数据真实”进一步等价于“社会现实”,线上的算法歧视与线下的社会歧视一脉相连,算法随之陷于社会既有的结构性困境中。工程师对此感到沮丧,表示化解社会症结已远超自身与算法技术的责任及能力边界:

我们协助有关部门做过色情行业从业者的算法识别,结果发现这些人基本上都是来自某个贫困地区的女性。这个结果非常让人伤心,听起来也很歧视,但如果我们只是靠在算法里摘除这个特征、不让算法指向特定人群,相关的现象依然存在、不会解决。(M62023529日)

但值得一提的是,不少工程师考虑了算法“求真”的风险——算法在表征社会现实的同时,可能以“再生产”的方式加固和强化已有的社会偏见(Just & Latzer2017)。工程师表示,算法的确是镜子,但本质是“放大镜”(M22023 528日),会让本就有偏的社会结构更为失衡:“社会中女性找工作的难度本就大于男性,算法还辅助得出了一个有利于男性的决策建议,这无形中又提高了女性求职的难度。”(M192023530日)在这种认知的驱使下,工程师会将自身责任伦理的框架从“如实反映社会现实”扩展至“避免恶化社会现实”,认为自身即使不能改善社会歧视现况,也应防止让自己设计的算法沦为歧视的扩散器,这种认知倾向一定程度可避免工程师因将算法歧视归咎于社会现实而合理化自己的免责或不作为。

3. 因果真实

追求“数据真实”或“社会真实”均反映出算法工程师“现象还原”的价值目标。随着人们对大数据的认识加深,算法中的因果机制愈发得到关注。大数据驱动的算法被认为只是更多习得了“统计相关性”,而非事物间的因果关系(Pietsch2016)。过去在歧视发现领域,技术人员会依赖算法结果与训练数据之间的相关性分析,而忽略混杂变量(confounding biases)的影响,导致了歧视争议的因果错判(QureshiKamiranKarimRuggieri & Pedreschi2020)。

5位受访工程师(M4M8M9M15M16)明确在反思歧视性现象时体现出“因果还原”的思路。如M4就认为:“对算法歧视的讨论不能停留在‘算法为女性推荐的高薪工作更少’的现象上,应该弄清楚算法是否真是因求职者性别才算出这种结果。”(2023528日)精准区分相关和因果的追求指引着工程师对 “是否构成歧视”的判断:他们推崇通过因果推断方法,判别是否因引入某一特征才导致了伤害性的区别对待,进而厘定“某一歧视是否真的存在”。在“算法种族歧视”的案例讨论中,M8表示:

如果算法不考虑种族特征后,最终还是能得出某一种族的再犯风险显著高于其他种族的结果,这就说明种族并不是导致算法结果差异化的原因,它只是一个相关因素。这样的话,我也不会因为算法差别对待某一种族而调整算法。(202364日)

受访工程师介绍,明确因果现实是工业界正在努力的方向。在他们看来,这种 “因果还原”的思路虽无法根治算法歧视现象,但超越了“现象还原”的思路,有助于更好地从逻辑和机制上理解算法造成的差异化结果。然而,这种价值追求带有浓厚的技术理性主义色彩,使得歧视作为心理现实(psychological reality)的性质被剥离,仅成一道可用数字精确解释的客观现象,背离了人文理性。

综上,鉴于真实和准确被认为是算法的理想状态,工程师认为自己有责任在反映数据分布、社会现实和内在因果等层面求真求准。这种对“真”的追求,与算法应具备的人文主义之间产生了张力:诸如“镜像世界”这类强调技术和数据客观性的观念很大程度上脱离了人的主体性存在,当开发者将其作为主要技术愿景,并以数据、社会、统计因果等为依归时,歧视的发生与再生产就被接纳为“镜像世界” 中的一条客观规律,人的感受和体验也随之被置于数据实在、关系实在与社会实在之下。

(二)建设“数字花园”之困:算法工程师“向善”缘何受挫

当从业者对真实与客观的追求成为算法歧视的观念肇因,作为伦理目标的“求善”变得关键——它可调适“求真”带来的隐患,推动技术实践走向真与善的统一。近年来,研究者在缓解歧视争议方面倡导嵌入公平性(algorithmic fairness)等理念和设计(张莉莉,朱子升,2021),其实质即“求善”理念的一种技术外化;在业界,为纾解大数据、大平台时代人文关怀失落的困境,技术人员们也已尝试以修葺、建设“花园”(data gardening)的思路对数据和系统进行维护和更新(Seaver2021)。这些技术倡议和实践都旨在为算法附着伦理关怀,进而打造一个平衡有序、真善两全的“数字花园”。

然而,“向善”的理念并未自然地融入技术开发进程。在被问及系统公平与技术正义是否被纳入工作目标时,受访工程师表明“求善”与其自身职业角色定位和专业追求不符:“算法工程师的目标不是给用户构造一个花园,不让他们接触负面的信息。”(M42023528日)“算法的本质是数学……数学课本不会附上一页要求学习数学的人去做善事。”(M7202361日)即便部分工程师在个人美德伦理的感召下对数字世界的公平正义心有向往,也未能让“扬善”与其职业伦理和责任伦理的框架充分兼容。受访者们从多个角度解释了“求善”缘何没有成为他们的价值目标:

1. 动机冲突

如前所述,“求真求准”是算法工程师推崇的技术操守和专业目标,且它具有优先性甚至唯一性,与“求善”难两全。此外,工程师也表示,除“求真”的专业目标外,算法所服务的业务目标也常与“求善”形成动机冲突。

多位受访者现服务于电商或新零售平台,他们直观地介绍了在“求利”导向下,算法公平和正义被贬抑或漠视的现实:“为公平性而调整算法会影响营收和效率。算法效率优先,公司收益优先,二者结合起来就是要最高效地获得最大化利益,这个时候公平已经排到算法设计的最后了。”(M12202367日)“公司最在乎ROIReturn on investment,投资回报率),所有工程师们负责的每个小指标都是为了提升这个大指标。”(M8202364日)在这一情形下,“求利” 与“求真”一样对“求善”形成驱逐。尤其当“拉新促活”等可能导致价格歧视的策略渐成行业惯例,平台为在竞争中胜出,将算法公平和正义从工程师的责任体系中隐去:年轻工程师表示,他们的业务目标即提升商业指标,基本没有余力考虑公平性问题;对资深工程师而言,他们的目标已几乎和所供职企业的商业目标混同。

泛资讯行业的算法工程师也背负着点击率等指标。不同于ROI等直观的财务指标,点击率等指标引导他们更多关注面向个人的信息服务质量。推荐算法在20世纪90年代被引入资讯领域时,其初衷即为实现个性化的信息服务(陈昌凤,师文, 2018),这一初衷也会与“求善”形成动机冲突。对于搜索引擎自动提示算法而言,工程师就表示难以兼顾消歧与信息的个性化和多样化:“当工程师觉得信息负面、算法不应该推时,用户可能就面临想了解却又搜不到的情形。我知道公平、正义是用户体验的重要内容,但作为信息工具,搜索引擎的提示主要还是得照顾用户的搜索兴趣和需求。”(M21202366日)两难选择背后是工程师对平台社会责任的理解:从业者多抱有“渠道中立”的观念,认为商业公司无从且无需承担 “建构数字花园”的职责:“搜索引擎只是帮助检索的工具,它又不需要让一个戴有色眼镜的用户变成不歧视的人。”(M11202365日)

值得注意的是,虽然受访者中少有为政府决策设计过算法的工程师,但有3位明确表示,与商业平台算法不同,辅助政府决策的算法应将公平和正义视作绝对内核,因其关乎每个人的基本权益,所以应以纯粹的社会公义为目标。

2. 路径阻断

在动机上,“求善”遭遇“求真”和“求利”的挤压;在实现路径上,技术、组织、教育等路径的阻断也令公平和正义未能成为工程师群体的优先目标。

就技术路径而言,大部分工程师认为公平与正义等是多维甚至无法穷尽的概念,无法量化计算,很难转化为技术设计、嵌入算法系统。有工程师甚至认为,只有完全随机的算法才能在公平性上服众,当算法训练数据里充斥着未能穷尽的标签与特征时,就难有公平可言。受访者表示,Open AI这类在消除歧视上看似领先的业内代表,也只是在西方社会较为关注的性别、种族等歧视上作出回应,国家歧视等维度同样被搁置在侧。而且,愈来愈复杂的算法模型使得从技术上维系算法公平更加不易:“当参数和策略比较简单时,我们工程师还可以人工维护;但是像 ChatGPT的参数已经以亿为单位,有针对性地设计和维护是不可能的。”(M20202361日)况且,算法本身的运作逻辑就让“去偏消歧”难以落地。M22表示:“算法从历史数据中学习大概率事件如何发生,难免会用大规模的群体性数据推断个体,这在根本上就跟消除歧视背道而驰。”(202372日)诚然,一些工程师也介绍了当前工业界与算法公平相关的设计,但这些设计其实只为算法(非)公平提供了判断依据,目前公平的实现和维护没有成熟的技术路线。

就组织路径而言,在员工众多、规模庞杂的互联网公司中,每位算法工程师一般只负责部分细微的子目标,因此单个工程师无法全局地衡量算法的公平性:“上级会把一个大指标拆解成许多小指标,分别让不同工程师去优化,比如为了实现用户转化这个大目标,有同事就专门负责‘用户单次购买商品数’这一项指标。” (M8202364日)更关键的是,由于互联网公司内设精细的业务线,伦理责任随着条块化的架构设计趋于分布式,这被认为是一种常态(Noorman2023)。因此,工程师们倾向于认为其他部门的工作人员将在求善上“代劳”,如M16就认为公平性是业务与产品部门人员应负责的问题:“我们更关注技术,一些贴近业务或者产品设计上的同事对偏见这样的负面产品体验会更重视,大家各有侧重。” (2023617日)在M8供职的企业中情况又有所不同:“公平性应该是舆情或者法务团队负责的事情,不归我们考虑。”(202364日)在分布式伦理框架下,面向公平和正义的“求善”被规定为特定行动者的目标,以一种制度化的方式从算法工程师上剥除。

此外,搁置公平性也与工程师受过的专业教育存在关联。一众受访者都提及了tradeoff(权衡)”的算法设计原则,它以一种术语的形式在专业教育中被引入:“这是我上第一节课就接触到的词。算法设计依靠不同的资源条件,老师提醒我们一定要权衡取舍。”(M12023527日)在工程师看来,算法无法尽善尽美,当“善”成为难以实现且无需实现的要素时,这种“权衡”的妥协观使得他们放低对公平和正义的希冀。另一方面,绝大多数受访者表示未上过专门的技术伦理课程:“在学校念书时,学界都在研究怎么能让技术更智能。这几年技术问题解决了不少,对伦理的关注才相对多起来。”(M22023528日)这不仅是中国STEM专业教育面临的现况,有欧美教育背景的受访者同样表示技术伦理不过是 “老师在课程收尾的时候可能会提到的内容,不是课程的主体”(M8202364日),伦理教育不足限制了工程师群体对技术向善的理解。

3. 非善之善

目标与路径的阻碍让工程师搁置了对“善”的追求。除此之外,工程师表示,出于公平正义的纠偏可能会带来“不善”的后果,这种面向结果的考量让他们更为谨慎。特别是当算法介入公共决策流程时,不少工程师指出,若出于不确定的善意而调整算法,可能反倒会妨害公共秩序。M5以司法裁判算法为例:“这种算法预测的是犯罪,需要强调准确率。如果为了所谓的善、不区别对待,结果危及公共安全,谁来负责?”(M52023529日)正是由于后果难料,工程师倾向于将自身的责任伦理框架简化。

这种“非善之善”还被认为体现在技术发展上:从事前沿算法模型设计的人员相信技术的未来前景,认为大模型等技术未来可能会改变世界;而对歧视等伦理问题的过分苛责会限制技术的创新与发展。M5借用汽车与安全带的隐喻表达了他的看法:“汽车(指大模型)还没发明出来,我们就在设计安全带(指伦理约束)。一个影响全人类的技术可能就因此无法发展。”(2023529日)

可见,在算法工程师的责任伦理框架中,“守义”“求公”等对善的追求难免不被高高举起、轻轻放下——从观念体系来看,“求善”除了面对“求真”产生的张力外,还会被特定的业务目标替代位置和压缩空间,多数时候成为工程师的一种弹性动机;从实现路径来看,伦理之重要性在他们过去所受的专业教育中未得到声张,伦理概念的难以量化又为求善制造了技术难度,且条块化和分布式的组织架构让他们认为求善非己任,加之“向善”并不一定结下“善果”,这些都令工程师审慎对待“数字花园”、逐渐远离“求善”目标。

(三)“真”与“善”的权衡与超越:算法工程师的“去偏”和“消歧”实践

求真、求善与求利三重观念相互纠缠,影响着工程师对算法歧视的判断与立场,进一步作用于他们的“去偏”和“消歧”方案制定。“求真”导向之下,由于工程师自认很难改变“社会现实”,故他们的“去偏”实践一般面向“数据真实” 和“因果真实”展开:

“数据真实”方面,工程师意在改变数据的有偏形态,展现出了两种思路:第一,对数据进行清洗式纠偏,例如推(推荐)/广(广告)/搜(搜索)算法开发者常用的“黑词库”即是清洗式纠偏的代表:“我们工程师会参与搭建平台‘黑词库’,比如训练一个敏感词检测模型,为不同词的敏感性赋分,最后根据打分结果自动地屏蔽一批信息。”(M8202364日)第二,对数据进行增强性纠偏。所谓数据增强(data augmentation),即通过向代表性不足的数据补充更多等价和有效的数据,丰富训练数据的分布,以增进模型的泛化能力,这种思路则旨在补强数据的代表性。M7202361日)介绍:“对于数据不平衡的问题,实际上我们也有很多尝试,比如说随机、聚类、加噪等等。”

面向因果的纠偏则有赖于可解释性方法和因果推断方法的进步,两种方法都为判断算法输出结果是否存在歧视伤害提供了数理层面的参考。在模型可解释性上, “可解释性方法可以把‘黑盒算法’做决策的思路,用统计语言或者可视化的方式告诉使用者或开发者,这就可以帮助判断算法是否存在偏见”(M1620236 17日)。在因果推断上,实验法相对常见:“如果认为算法有基于某个特征的歧视,我们会试着丢掉这个特征,观察在去掉特征后模型是否还会输出相同的结果。这个在算法上叫做消融实验。”(M7202361日)

“求善”导向之下,工程师认为“合规”和“提升用户体验”两种方式可让算法通往“无伤(harmless)”。前者即让算法服从法律的基本规定、避免出现非法乱象,如前文提及的“黑词库”就会把涉嫌危害国家安全的信息首先摒弃。后者则让算法顺应用户体验,以用户反馈为准绳,借用户体验来判断是否应调整算法模型。

另外,虽然组织架构让工程师在求善问题上的主动性与话语权甚微,导致求善成为他们的弹性动机,大多受访者仍表示会在其他岗位提出“去偏”和“消歧”的技术需求后积极配合:“产品岗会给这些问题划定优先级,我们根据他们的优先级修改技术。”(M11202365日)有工程师还强调技术岗应在“求善”上被赋予更多能动性,特别是在前沿新技术领域扮好“吹哨者”。一位受访者就曾在大模型开发过程中敏锐地定位了种族歧视风险,并主动向决策层提议暂缓产品发布,最终这一提议被采纳。不过类似案例在访谈对象中十分少见,更多受访者认为,“去偏”和“消歧”关乎公司整体的企业文化,底层员工以个人之力撼动企业价值观不现实。

“真”与“善”之外,受访者亦提及国家意志和社会舆论对他们技术伦理观念和实践的塑造。M21即认为:“技术监管的最优方案来自国家,国家会从顶层设计角度权衡技术发展与社会公平之间的度,同时制定对所有公司都平等的方案。” (202366日)社会舆论也可能发挥决定性作用:“就像之前的大数据杀熟,我们也关注相关社会舆论,毕竟舆论有时会决定一个产品是否退市。公司一般在舆论发酵后会向我们下达命令、要求技术调整。”(M32023528日)

结论与讨论

本研究通过一组对算法工程师的访谈,关注作为技术建构者的工程师如何看待和应对算法歧视争议,并择重从工程师伦理切入,观察他们的伦理观念与实践如何介入有偏技术的建构过程。

结果表明,工程师群体并非像以往调查所述,在伦理问题上模糊含混和漠不关心。至少在算法歧视问题上,他们有专业且坚定的价值判断——他们秉持对真实准确的技术的追求,认为技术系统应当反映现实,且不会超越现实;当数据或社会中存在歧视问题,算法将有如镜鉴、一一烛照。这种对“真”的理解很大程度上塑造了有偏的技术系统。同时,部分受访者也注意到算法歧视对社会歧视的复制与扩散,认为自己设计的算法在反映现实歧视之时,应避免扩大歧视、恶化现实。

值得讨论的是,本研究与既有调查和研究发现存在出入,这一方面可能与研究方法和研究设计有关:问卷调查等方式虽确保了结论的统计学意义,但量表等资料和数据的收集方式很可能会造成信息量的损失;而既有访谈关注相对泛化的、一般意义上的伦理,在结合实例与工作场景上有欠缺,鲜有触及工程师们对算法歧视这类特定情境的态度、想法与行为。另一方面也与研究面对的现实有关:近两三年来,“技术后冲”(Techlash)的思潮在全球范围内涌起,媒体对算法失范的讨论密集,国家对算法规范的建制频频,这可能也补充、调适甚至重塑了工程师们对算法歧视等伦理问题的理解。本研究的结论可视作对前序研究的一种丰富,也表明有关技术从业者伦理观念和实践的讨论空间在不断拓宽,学界的认识需不断更新。

回到发现中,工程师为何执着于“真实”?访谈发现,这种追求部分地源于他们的专业立场和判断,亦关乎他们对职业的理解。工程师认为“去偏”和“消歧”在实现上困难重重,这一部分受制于客观的技术能力——目前在公平正义方面缺乏通用可行的量化模式;同时也受环境制约——在当下的组织分工中,“求善”往往被规定为工程师无须多虑、由其他行动者主理的目标,加之效率和利益的最大化、信息的个性化等业务目标在组织化力量的加持下嵌进工程师群体的责任伦理框架中,挤压了个人美德伦理中的“从善”,进一步放大了“求真”的优越性与唯一性。

国内工程师对“真”“善”等的价值追求本质是什么?此前研究认为当代算法生产的伦理观和道德判断源于其母专业,即工程学的技术自由主义文化(techno-libertarian culture)(AvnoonKotliar & Rivnai-Bahir2023)。对这一观点,本访谈补充了更本土化的辩证视角——诚然,国内外算法工程师在算法歧视问题上有不少共通的、跨越地方的价值观念,这些很大程度上植根于其专业文化。本研究受访的工程师们确实表露出了一些技术自由主义倾向:他们尝试从技术出发将算法歧视“合法化”,有观点还认为过分苛责和审查技术会阻碍科技创新。但是,国内的工程师认识到了有偏算法对社会歧视的“再生产”和加固,但又囿于组织环境给去偏和消歧实践制造的阻力,进而赞成国家、公众与技术人员、企业组织一道参与扭正技术缺陷,尤其对政府在技术治理上不可替代的统摄性作用深以为然。这些反映出技术人文主义与技术自由主义在中国社会完成了价值观调和,正促成一种有别于西方的职业理念,它一并进入了有(去)偏技术系统的社会建构进程。可以认为,我国在互联网治理体系(如强有力的宏观治理以及对政府的普遍信任)、历史文化传统(如“又红又专”等中国本土工程师伦理的培育与演进)、企业架构(如企业的科层制遗留)、行业环境(如行业的高度 “内卷”)等层面都区别于西方,这些为中国算法工程师的“真善之辩”注入了地方性的“基因”。这再度提示:随着我国数字平台频繁出海、中国算法从业者在全球数字产业中扮演愈来愈显要的角色,对中国算法工程师价值目标与伦理实践的观察兼具在地和跨地方意义,值得深入探讨。

在理论层面,通过观察工程师伦理如何进入技术建构的流程,研究重新定位了SCOT理论所述的解释弹性(interpretative flexibility)(Pinch2012;戴宇辰, 2021)。过去理论认为,技术相关的弹性诠释一般发生于不同的相关群体间。但访谈发现,这种弹性亦在工程师内部产生:他们对哪些现象属算法歧视,相关歧视争议如何归因、化解等问题的理解表现出了异质性。或许这正表明,对有(去)偏算法技术的认知尚未“闭合”,相关的“去偏”和“消歧”实践亦未进入“稳定化” 的状态,此时介入研究、提供洞察和见解十分适宜。不过工程师们几近一致地认同、追求“真”与“准”,且为自己脱责、认为“求善”非己任,这也提醒:有偏技术的社会建构正处进程中,它影响着未来的算法社会是否会成为现实社会的“镜像”,还是会超越有偏现实、建成理想化的“花园”;在这一进程之下,对(反)算法歧视的观念与认识变为一道棱镜,折射出从业者公平、客观、正义、尊重、透明、可解释等多种基础伦理观之间是如何协调与互构的。

本研究为理解算法歧视和有偏技术提供了伦理观与伦理实践层面的见解,在取径上较细,这是亮点亦是不足。后续研究可考虑循技术的社会建构进一步延伸,探讨政治环境、商业生态等因素如何塑造智能技术。

本文系简写版,参考文献从略,原文刊载于《国际新闻界》2023年第10期。

转自:“国际新闻界”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com