原文信息:
Fumagalli E,Rezaei S,Salomons A(2022).
OK computer: Worker perceptions of
algorithmic recruitment.Research Policy.
51-2:1004420.
01
引言
由于人工智能 (AI) 和数据基础设施的飞速发展,算法预测被越来越多地用于决策,而劳动力市场是此类应用的重要领域。具体地说,算法在招聘或以其他方式评估员工时被广泛使用,例如通过自动简历筛选员工和其他算法评估服务。总的来说,是基于回归或机器学习模型,利用公司当前和以前的求职者或现有员工的数据,来预测员工的未来工作表现。那么,到底是“机器选人”靠谱还是“人选人”靠谱?
有关算法使用的现有研究主要集中在雇主视角,而关于员工如何看待算法评估与人类评估的研究有限,因此本文讨论与人类评估相比,员工对算法评估的看法和偏好。特别地,本文模仿了一种招聘设置,以来自亚马逊在线劳动力市场Mechanical Turk (MTurk)的员工为对象,设计实验揭示有关驱动人类与算法预测偏好的因素的因果证据。
本文的边际贡献有三:
(1)研究视角:已有研究大多从决策者的视角出发,决策者要求最大限度地提高预测准确性,但这并不一定符合员工的利益,因此本文从员工的角度研究算法评估与人类评估,这是第一项旨在激发员工对算法或人类评估的激励偏好的研究;
(2)研究内容:本文揭示了关于招聘者招聘的两个潜在决定因素的因果证据,即员工绩效表现和员工性别,任何偏见差异都是由于招聘者在考虑任务绩效的程度上的感知差异以及招聘者性别偏见的感知差异所致。已有文献研究了算法及人类决策中存在的偏见,本文在此基础上更进一步地研究两者的偏见差异在多大程度上决定着招聘者对这些决策的偏好。
(3)研究结果:员工对人工评估和算法评估有不同的看法,并且愿意花钱来获得他们喜欢的招聘者。具体而言,任务表现良好的员工更喜欢算法招聘者,而任务表现较差的员工更喜欢人工招聘者。就招聘中的相对性别偏见而言,本文发现员工选择人工招聘或算法招聘的部分原因是他们认为人类招聘者更偏爱任务表现较差的男性。
实验设计
02
本文运行了两个模拟招聘环境的实验:
(1)信息实验:计件实验,记录员工完成所给任务的速度,以此定义求职者执行任务的能力,并且员工可以选择他们最喜欢的招聘者。在这项任务中,员工必须从包含1到99之间的九个数字的3×3矩阵中找到加起来等100的两个唯一数字。选择此任务是因为员工给出正确答案的速度是明确定义的绩效衡量标准,此外,速度因员工而异,但这项任务并不过分困难或耗时。重要的是,即使在不受监控的环境中,员工也不能在这项任务中作弊。员工来源于在线劳动力市场——亚马逊的Mechanical Turk ,此平台上雇主向大量潜在员工提供任务,在MTurk和经济实验室环境中的员工之间被证明没有实质性差异。
(2)性别偏见实验:锦标赛实验,员工与虚构的竞争对手竞争,旨在揭示性别偏见的影响。
(一)实验设置
阶段一:员工输入人口统计信息: 年龄,性别,种族和受教育程度;
阶段二:向员工展示寻找数字的任务,即招聘者观察任务时间;
阶段三:员工被告知公司希望雇佣擅长寻找数字任务的员工,并将使用招聘者根据他们的特征 (年龄,性别,种族和教育水平) 预测员工的平均任务时间以及他们观察到的任务时间;
阶段四:评估员工为他们喜欢的招聘者支付费用的意愿;
阶段五:员工被要求估计每个招聘者(算法和人类)为他们预测的平均任务时间;
阶段六:员工回答了几个调查问题,涉及他们对人类和算法招聘者的看法、他们的风险偏好以及五大人格特质。
性别偏见实验的第一、二、四、六阶段与信息实验相同,第三、五阶段不同。将实验更改为锦标赛设置,在第三阶段中,分配每个员工与虚拟员工竞争,其教育程度、种族和年龄与该员工相同,但以2乘2的设计随机更改竞争对手的性别以及他们观察到的任务时间。在第五阶段,员工会被告知他们观察到的任务时间以及观察到的任务时间和竞争对手的个人特征,并要求选择哪个招聘者去评估两个竞争对手。
图1 研究设计流程图
(二)招聘者设计方式
为了避免参与者欺骗,本文使用根据过去数据训练的实际人类和算法招聘者,从两个试点实验中收集了数据: 在2019年4月17日和8月5日上有345名MTurk员工的MTurk实验,以及在2019年6月13日上有22名参与者的实验室实验。
算法招聘者被设计为MTurk试点实验的所有345名员工的平均任务时间对员工的年龄、性别、种族、教育水平、观察到的任务时间的OLS回归系数,这些系数用于预测在信息和性别偏见实验中获得算法招聘者的员工的平均任务时间。
对于人类招聘者,本文在乌得勒支大学的社会学和经济学实验实验室 (ELSE) 进行了实验室实验,有22名参与者被支付作为招聘者,并评估了345名MTurk员工中83名的平均任务时间,对每个招聘者使用具有交互项的OLS回归来计算22组系数,以预测员工的平均任务时间。这些系数中的一组是随机分配的,用于预测在信息和性别偏见实验中获得人类招聘者的员工的平均任务时间。
(三)描述性统计
图2显示平均而言,员工需要大约20到25秒来解决第9轮任务,在所有10轮任务中,他们平均需要18到21秒。略大于一半的员工是男性,大约30%是非白人。员工的平均年龄在37岁左右,2/3的人至少受过本科教育。
图2 描述性统计
03
研究结果
(一)招聘者的看法
图3展示了算法招聘者和人类招聘者在九个不同维度上的看法:公平、歧视、预测准确性(即不易出错)、透明度、简单性、熟悉度、速度、是否重视员工的特征以及是否重视员工的任务绩效。该图显示了将李克特五分量表分为三类的结果:不同意、中立和同意。这突出表明,与人工招聘者相比,算法招聘者通常被认为更公平、更透明、更简单、更快,并且更重视员工的任务绩效。相反,人类招聘者被认为更具歧视性、更容易出错、更熟悉,并且更重视员工的个人特征。
图3 招聘者的看法
(二)招聘者的偏好
本文主要通过两种方式来衡量员工的招聘者偏好——对招聘者的激励选择以及他们为这种首选招聘者支付费用的意愿。结果显示,大约50%的员工更喜欢算法,大约50%的员工更喜欢人;接近60%的员工愿意付钱让他们首选的招聘者对他们进行评估;平均而言,员工放弃预算的29%以获得他们最喜欢的招聘者;与那些喜欢算法招聘者的人相比,那些喜欢人类招聘者的人的支付意愿更高;但是,那些在偏爱人类时被分配给算法招聘者的人比那些在偏爱算法时被分配给人类招聘者的人的福利损失更大。
图4 招聘者偏好
信息实验结果如图5所示,列(1)和(4)中报告的自变量是两个分类变量,如果员工分别期望算法或人更有利地评价它们,则这两个分类变量等于1(省略的分类等于期望的评价);在第二列(2)和(5)中,本文添加了招聘者观察到的任务表现;在第三种情况下,在列(3)和列(6)报告中,本文还控制了个体员工的特征。
图5 招聘者的选择与支付意愿
(三)招聘者的选择
验证了员工对人类和算法招聘的偏好后,开始进行对两个实验的干预,确定两组预测因素的因果效应。
(1)信息实验
员工意识到自己的任务表现较差(较好),那么他们更有可能选择人类(算法)招聘者,为了研究这一点,将实验组员工与对照组员工进行比较,估算公式为:
Yi表示选择招聘者的虚拟变量,或是员工为选择招聘者付费的意愿,当员工被告知他们高于过去员工任务绩效的中值时取1,否则取0。结果与员工认为人类招聘者对任务绩效的重视程度较低的观点一致。
图6 任务绩效信息对员工选择招聘者的偏好及支付意愿的影响
(2)性别偏见实验
通过比较招聘者对同性别及不同性别竞争对手配对的员工的男女选择,可以发现不同招聘方法中性别歧视的感知差异。
其中,treati是虚拟变量,如果���员工已经与不同性别的竞争者配对,且为男性,则取1,否则为0。结果如图7所示,第(3)和(4)列中的系数表明,比女性竞争对手慢的男性员工选择人类招聘的可能性比比男性竞争对手慢的女性员工高21% ~ 24%。然而,对于那些比他们的竞争对手更快的人,则没有发现差异(列(1)和(2)),这表明相对于算法招募,在人类招聘者中没有对女性的总体偏见。此外,第(5)列至第(8)列显示,员工为获得其青睐的招聘者而支付的意愿并无性别差异。
图7 不同招聘方法中性别歧视的感知差异
(四)机制检验
在实验背景下,可以通过研究员工的招聘者选择作为其绩效信号质量的函数,为机制提供初步证据:
研究结果表明,发出较差绩效信号的员工更倾向于人类招聘,说明发出工作绩效信号的能力可能是员工偏好算法招聘还是人类招聘的决定因素。因此需要进行更多的研究来设计算法,不仅要专注于根据以往的成功经验来选择最佳候选人,还要给予求职者一个在工作中证明自己的机会。
图8 绩效信号与招聘者选择
结论
04
(1)员工对人类评估和算法评估的感知确实不同,并且愿意为他们喜欢的招聘者付费;
(2)观察到的任务绩效较好的员工更喜欢算法评估,而观察到的任务绩效较低的员工更喜欢人类评估;
(3)招聘者性别偏见的感知差异对人类和算法招聘的偏好很重要,因为人类招聘者被认为更倾向于任务表现较差的男性。
Abstract
We provide evidence on how workers on an online platform perceive algorithmic versus human recruitment through two incentivized experiments designed to elicit willingness to pay for human or algorithmic evaluation. In particular, we test how information on workers’ performance affects their recruiter choice and whether the algorithmic recruiter is perceived as more or less gender-biased than the human one. We find that workers do perceive human and algorithmic evaluation differently, even though both recruiters are given the same inputs in our controlled setting. Specifically, human recruiters are perceived to be more error-prone evaluators and place more weight on personal characteristics, whereas algorithmic recruiters are seen as placing more weight on task performance. Consistent with these perceptions, workers with good task performance relative to others prefer algorithmic evaluation, whereas those with lower task performance prefer human evaluation. We also find suggestive evidence that perceived differences in gender bias drive preferences for human versus algorithmic recruitment.
推文作者简介:
刘雨婷,湖南大学经济与贸易学院国际商务研究生
邮箱:lyt716@hun.edu.cn
推文可能存在纰漏与不足,欢迎大家批评指正!
转自:“香樟经济学术圈”微信公众号
如有侵权,请联系本站删除!