投稿问答最小化  关闭

万维书刊APP下载

陈昌凤\师文 | 人脸分析算法审美观的规训与偏向:基于计算机视觉技术的智能价值观实证研究

2022/8/22 10:42:24  阅读:499 发布者:

陈昌凤,清华大学新闻与传播学院教授。

师文,通讯作者,暨南大学新闻与传播学院副教授。

本文系国家社科基金重大项目“智能时代的信息价值观引领研究”(项目编号:18ZDA307)

引言

随着人工智能技术的迅速发展,智能算法逐渐嵌入社会生活的方方面面,算法辅助人类作出判断正成为智能时代的常态。虽然算法的自动化判断使社会运行的效率提升,但是人类对算法的决策权让渡也存在风险。此前大量研究已经注意到,数据标注、逻辑设计等环节使算法在进行事实判断时会产生无意识的判断偏差。比如,算法无法成功地将黑人识别为人类(SandvigHamiltonKarahalios & Langbort2016);搜索引擎的逻辑反映了算法设计者的刻板印象(Sweeney2013)等。

除了上述无意识的事实判断偏差,研究者更需注意的是,越来越多的算法正在被开发出来用于执行价值判断。作为智能社会中重要的中介,算法在进行价值判断时的观念实践及其后果不应被实证研究所忽视。

人脸分析算法是人工智能领域的重要技术,其致力于使机器具有理解人类面部信息的能力。与自然语言处理等大多数人工智能应用相比,人脸分析算法的特殊之处在于其分析对象为人类的生物特征。相应地,人脸分析算法所进行的价值判断直接指向人类的身体,使其成为研究人类与算法价值判断交互的良好切入点。面对算法黑箱,本研究借鉴工程科学中“逆向工程”的思路,对算法的输入数据和输出结果进行统计检验,以期再现算法的设计逻辑和功能特性。具体而言,研究采用前沿的计算机视觉技术,借助在控制条件下拍摄的标准人脸视图对人脸分析算法的“颜值评估”和“人脸美化”两项功能进行逆向测试,评估人脸分析算法的审美价值偏向,分析算法价值偏向背后的审美意识形态,并探讨算法作为一种新兴的价值载体,其审美实践作用于人类既有审美观的逻辑及可能后果。我们希望这项工作能增进现有研究对算法决策边界、算法与人类价值观交互等问题的理解。此外,在算法的核心代码非公开、算法训练数据不透明的普遍背景下,本研究示范了如何借助严格控制的数据进行逆向测试,这一路径允许研究者实证地检验算法逻辑,而非仅进行伦理学式的抽象推断,有望为日后的算法研究提供方法上的启示。

文献综述

(一)算法判断的偏差

算法虽然是科技产物,但其生产却脱胎于社会土壤。对智能语音助手声音的研究发现,机器人相关的流行文化带来的科技想象为智能语音的设计提供了负向参考,性别、种族和阶级规范也被考虑其中,以增加目标用户对智能化实体的接纳(Humphry & Chesher2020)。社会文化属性不仅体现在算法的外在形态上,也根植在其逻辑内核中。

当人类需要算法辅助进行决策时,社会文化的嵌入则意味着算法呈现的结果可能失之偏颇(Chouldechova & Roth2018)。在搜索引擎的广告设置中,相比性别设置为男性的情况,将性别设置为女性意味着算法推荐高薪工作广告的可能性更低(DattaTschantz & Datta2014)。当在搜索引擎上输入黑人和白人的常用名时,算法不成比例地在黑人名字的检索结果中夹带犯罪记录查询广告,即使被查询者并没有犯罪记录(Sweeney2013)。作为人工智能的重要应用场景,人脸识别算法也多次被发现存在偏差。以肤色作为关键特征的人脸识别算法在识别黑人方面的性能表现较差,这意味着黑人的面部实际上没有被算法设计者定义为人脸(Sandvig et al.2016)。

算法的偏差可能来自于算法逻辑设计的失当。顶级期刊Science上发表的实证研究发现,医疗系统使用的健康评估算法涉嫌种族歧视,算法低估了黑人患者的病情严重程度,这种偏差会影响后续的医疗资源分配。偏差的形成原因在于算法实际上预测的并非病人的病情严重程度而是医疗支出。在黑人和白人社会地位不平等的背景下,用医疗支出推断病情严重程度使黑人对医疗资源的需求被算法低估(ObermeyerPowersVogeli & Mullainathan2019)。

数据则是算法决策具有偏差的另一个可能的原因。数据生产的若干环节都可能导致偏差的产生,一旦数据中包含了社会对某个问题的认识偏差,算法则可能在模型训练阶段无意识地继承这种观念(Barocas & Selbst2016)。比如,在构建数据集时,社会类别相关数据的缺失会使歧视更难以被察觉到(WilliamsBrooks & Shmargad2018)。在数据标注环节,人工标注为将偏差注入数据提供了机会,对若干事实核查算法数据集的检查则发现,受到标注者的个人特质(如政治立场)、标注流程等因素的影响,所有数据集中普遍存在偏差(Bountouridis et al.2019)。此外,鉴于现实生活中的人工智能应用并非静态产品,而是时刻借助外界反馈进行自身调整的动态实体。外部环境给予的反馈也可以使人工智能在训练迭代的过程中习得新的偏见。

算法判断中的偏差有可能以某一种方式进一步反作用于人类社会。批判算法研究(critical algorithm studies)认为,鉴于算法已经成为智能时代的社会基础设施,其对社会文化具有强大的反作用能力。人类在使用算法时虽然具有一定的主观能动性,但是也会推测算法的规则和意图,并据此调整自己的行为(Cotter2019),这意味着人类会从对算法规范的主观感知中实现自我道德价值的调整,算法及其平台的威力可能产生规范性的后果,在人机互动中潜移默化地实现对人类用户的规训(Magalhães2018)。

(二)算法的价值判断

伦理学对判断类型的划分标准多种多样,其中一种经典的划分方式是将判断分为事实判断与价值判断(休谟,1938/2014366),这种二元分类标准系基于人类思想活动展开的层面来比较不同判断之间的差异(马少华,201229)。其中,事实判断往往探讨“是”层面的问题,从实然角度出发对事物客观属性进行判断(如原因、后果、事物间的关系);价值判断则探讨“应该”层面的问题,指人类依靠特定的价值标准,对事物的应然状态做出主观判断。由此可见,与事实判断的不同在于,价值判断不聚焦于事物本身的客观性质,而是关注人类对事物的主观价值期待。由于人类社会的运行往往依托于约定俗成的价值体系,价值判断也因此带有规范、命令的意味,这使价值判断中反映出的价值取向对生活、实践具有指导意义(孙伟平,2000155)。

在现实生活中,大部分的人工智能算法执行的是事实判断任务,比如对图片的内容进行分类或预测用户对某条新闻的兴趣等。但是这并不意味着人工智能不具备价值判断的能力,或者从未涉足价值判断。不论人工智能所依托的算法是分类逻辑还是回归逻辑,只要在模型训练阶段为数据提供价值标签而非事实标签,人工智能在训练过程中就可以将判断对象的价值特征嵌入程序参数中,并据此执行价值判断。

与算法事实判断过程中引发的无意识偏差相比,算法价值判断因其折射出的强大的智能实体自主性面临更大的争议性,其运行不当则可能产生价值偏颇。虽然人工智能的价值判断行为已经走进人类的社会生活,但是算法做出此类判断的适当性、公众接受度及行为规范一直是讨论焦点。对道德类价值判断的研究发现,由于算法不具备意识、情感等“心智”,公众目前对于算法价值判断持抵触态度(Bigman & Gray2018)。长期以来,文艺作品中强大自主的人工智能及其给人类带来的伤害使公众质疑人工智能的无害性(Humphry & Chesher2020)。在学术界,算法作为价值判断主体的正当性也备受争议。但是也有学者认为,现有技术条件下的人工智能产品尚未具有科幻想象中的巨大威力,人工智能参与日常的价值判断是非常普遍且必要的,人类有望通过混合自下而上的学习路径和自上而下的伦理设定塑造机器的价值体系(Wallach & Allen2008114-115)。除此之外,人工智能甚至还应该被用于敦促人类做出良善的行为(Borenstein & Arkin2016)。由于人类社会很难在价值层面达成单一共识,科学家甚至还期待这类人工智能算法具有多元的价值观,有能力帮助人类克服偏见等自然心理层面的局限性(Savulescu & Maslen2015)。

在人工智能的价值判断这一问题上,人类已经不缺少库布里克式的科幻构想,也不乏对“电车难题”等经典伦理困境在智能时代的延伸探讨(Wallach & Allen200813),但是尚少有研究基于现实土壤考察算法价值判断的形态及后果,而这类实证案例研究恰恰有利于观察算法价值判断在人类社会生活中扮演的角色,厘清算法价值判断与社会土壤之间的交互关系,进而为人类理解与适应算法价值判断提供切实帮助。

(三)人脸分析算法与审美观

审美是一种价值判断行为(Santayana189614)。自然科学家认为人类内部的进化动力导致了对美貌的本能式推崇,具有对称、肤色均匀等特征的人脸意味着更强大的生命力和繁衍能力(Yarosh2019),这可以解释为何不同的文化对美貌有诸多共同的认识(Langlois et al.2000)。但审美观也是经过社会文化建构的产物,化妆品行业的发展历史表明,社会关于美丽的价值导向会随时代发展而变化,并且在不同的文化中存在差异(HuntFate & Dodds2011)。种族身份、社会阶层等因素也会影响人们的审美观(Cross & Cross1971Kozee201632)。

虽然对美貌的推崇可以被视为人类固有的本性,但是杂志、电视、社交媒体、视频网站、搜索引擎等媒介均被证明强化了社会的审美期待。研究表明,常观看时尚杂志或电视上展示的理想化人物形象更容易导致对自身的不满意和外貌焦虑(GrabeWard & Hyde2008);花费在Facebook照片相关操作上的时间越多,人们就会更关注自己的外表(Meier & Gray2014)。

随着人工智能时代的到来,算法智能化的图像处理算法也与人的容貌特征发生了交涉。人脸图像处理算法致力于赋予计算机视觉感知能力,使其可以像人一样理解图片中与人脸相关的信息。人脸图像处理领域的关键技术包括人脸检测(face detection)、人脸识别(face recognition)、人脸分析(face analysis)(Black2021Joo & Steinert-Threlkeld2018)。其中,人脸检测算法的目的是在给定的图片中检测到人类的面部,并标注出其位置轮廓,这是人脸图像处理领域的基础性技术,也是后续对人脸图像展开识别、分析的前提。人脸识别算法则是基于人脸特征进行身份识别的技术,其关键在于人脸比对,即计算两张可能拍摄于不同时空条件下的人脸图像是否具有相似的面部关键特征,以此判断其来自同一个人的概率,该技术目前被广泛应用于安防领域。相比之下,人脸分析算法则并不局限于回答“两张人脸是否相同”这一闭合式二元问题,其致力于对更广泛的面部特征进行量化分析。比如,亚马逊的人工智能产品Amazon Rekognition可以根据人脸图片分析人口统计学特征(性别、年龄)、情感(高兴、忧伤、惊讶)、附属物(是否佩戴饰品、眼镜)等。此外,还有大量的人脸分析算法的将人的社会属性作为分析对象,比如有的算法通过容貌评估人类智力水平(Wei & Stillwell2017)、人格特质(VenturaMasip & Lapedriza2017)、意识形态(Xi et al.2020)或计算人的富有程度、吸引力、自信程度、男子气概等(JooSteen & Zhu2015)。

本研究主要聚焦于上述三类算法中的人脸分析算法,并特别关注将该类算法应用于审美的价值判断行为。计算机科学界为量化颜值(facial beauty prediction)开展了大量研究,其以社会科学界的发现为基础,利用计算机视觉技术对人脸颜值进行量化计算和增强(LiuFanSamal & Guo2016Saeed & Abdulazeez2021)。目前的颜值评估算法涵盖传统机器学习领域和深度学习领域,前者试图基于平均、对称、黄金分割等审美理论推断“美丽”的量化方式(Gunes2011),对人脸某些特征进行建模,后者则依托神经网络,从图片中自动习得类似于人类的审美行为 (LiuLiFanQuo & Samal2017WangShao & Fu2014)。计算机算法开发者认为可以使用人脸颜值评估算法对线上约会者进行吸引力排名(Zang et al.2017),甚至帮助招聘方根据颜值筛选求职者的照片(Liu et al.2016)。

除了直接对颜值进行评分,人脸分析算法对审美观的价值涉入还以更隐蔽的方式进行。计算机界开发了大量的美颜算法,可以智能地“美化”人脸(facial beauty enhancement),同时保持与原始图像的高度相似性(LeyvandCohen-OrDror & Lischinski2006)。由于Photoshop等专业图像编辑软件需要繁琐的手动操作,轻量级的智能化美颜软件可以满足用户通过低门槛操作实现面部美化的需求。目前,微博、Instagram等社交网站均提供内置的图片美化工具;YouCamB612ModiFace等美颜软件位居Google Play排行榜前列(VelusamyPariharKini & Rege2020)。除了静态的照片拍摄,自动化的人脸美颜算法还被应用于视频直播、视频会议(LiuZhang & Zhang2007)等场景中。

虽然算法审美正成为人脸分析算法的重要应用,但是目前对于算法审美行为的关注主要来自计算机界,其研究关切大多局限在如何技术性地提升算法的性能表现。事实上,算法审美相关的技术并非孤立存在,而是与医美行业、美妆行业、名人文化、社交媒体等社会事物相关联(Elias & Gill2018),并且正在被计算机界推广至招聘、约会、会议等多种社会场景。社会科学界已经开始关注美颜应用的使用及其相关心理机制(Chae2017Sun2020),也有研究从女性主义视角出发对此类应用背后的性别权力关系展开探讨(Elias & Gill2018Peng2021),但却少有研究从价值判断的维度对算法审美观念进行测量与批判性反思。作为进行价值判断的人工智能应用,颜值评估算法和美颜算法的价值逻辑需要审视。算法作为审美价值判断的主体是否适当、算法审美观中折射出了怎样的价值偏好等问题有待量化实证研究的伦理学审视。

研究设计

(一)研究对象

本研究选择旷视科技有限公司开发的人工智能开放平台Face++作为研究对象。Face++围绕计算机视觉领域提供一系列智能化服务,涉及人脸识别、人体识别、证件识别、图像识别等问题场景。其中,人脸数据处理是Face++的主营基础业务,其下设若干延伸出的子功能接口,如Detect API(人脸检测)、Compare API(人脸比对)、Search API(人脸搜索)、3D API3D人脸重建)、Beautify API(人脸美化)等。Face++是在世界范围内有较强代表性的人脸分析应用,其在计算机科学中常被用作性能参照算法(SienaByromWatts & Breedon2018WangDantcheva & Bremond2018),在社会科学的人脸分析中也被广泛使用(Araújo et al.2016HuangWeber & Vieweg2014Peng20182021)。更为难得的是,Face++同时提供颜值评估算法和人脸美化算法(如图1中虚线框所示),这与本研究探讨两种算法审美行为的期待不谋而合。

颜值评估算法可从人脸检测API中调取。人脸检测是人脸分析服务的基础功能,其可以检测图片中存在的所有人脸,并对检测到的人脸进行基本特征提取,获得人脸的关键点和各类属性信息。目前,人脸检测功能可以识别出人脸的位置、关键点,并自动化地提取性别、年龄、表情等面部属性。值得注意的是,除了上述客观属性,算法还会自动计算出一个名为“颜值”的主观属性,以期对人脸的容貌进行评价。根据Face++的官方文档,对于图片中的每张人脸,算法会自动生成两个“颜值分数”,male_score为男性鉴定的此人脸颜值分数,female_score为女性鉴定的此人脸颜值分数。颜值分数的区间为[0,100],分值越大,颜值越高。

除了对人脸进行颜值评估,Face++人脸识别所延伸出的服务中还有专门的“人脸美化”功能,其算法可以自动对图片中人像进行美容,致力于“基于高精度人脸关键点,实现贴合脸型的智能美颜、美型处理”。用户可为输入的图片设置美化参数,如果用户未指定美化参数,则算法按默认模式进行美化。该算法的返回结果为美化后图片的base64编码的二进制数据,用户将该二进制数据解码,即可获取美化后人脸的jpg格式图片。

(二)研究假设

在对审美价值取向的研究中,肤色、瘦削程度、年龄因素受到较多关注,并且与社会文化存在较多的关联。从19世纪初起,对皮肤白皙的追求反映在西方审美观中,一方面是因为其暗示着无需从事户外体力活动的优越社会地位(Mazur1986),另一方面也受到种族主义的影响,即主流审美标准将白人的特征定义为美,将黑人特质定义为丑(Craig2006)。虽然晒黑有时也会被一些西方国家视为流行时尚,因为它表明有大量可用于度假或运动的休闲时间(Keesling & Friedman1987),但是在亚洲社会中,受传统亚洲文化价值和西方中心主义思想的影响,肤色白皙仍然更受推崇,皮肤美白和提亮产品在亚洲市场上有普遍的吸引力(LiMin & Belk2008)。

瘦削程度也是审美观的重要构成部分。社会期待女性达成不现实的瘦身标准,对身体意向的研究发现,观看苗条身体的图像可能导致女性对瘦弱的信仰内化、身体满意度降低、饮食失调等问题(Bardone-Cone & Cass2007Grabe et al.2008)。男性则是在观看具有男子气概的图片后遭遇自我满意度的下降(BarlettVowels & Saucier2008)。就面部形状而言,看起来较为瘦削的倒三角形和椭圆脸型是中国的美容从业者最推崇的两种脸型(Samizadeh2019)。

年龄是审美标准中的另外一个重要指标。研究表明,婴儿的大眼睛、光滑的皮肤等幼态特质有利于其获得更多来自长辈的保护以提高存活率(Alley1983)。成人面部的幼态特质也会使其看起来更天真、诚实、善良(Berry & McArthur1985)。具有大眼、小鼻子、小下巴等幼态特征和高颧骨、窄脸颊等成熟特征的女性对男性有更大的吸引力(Cunningham1986)。与此相对应,人们对衰老面庞的感知更加负面,这意味着更差的健康状况、不足的精力(Ebner2008)。

据此我们提出以下假设:

假设1:人脸分析的“颜值评估”算法推崇瘦(1a)、白(1b)、幼(1c)的审美价值取向。

假设2:人脸分析的“人脸优化”算法会按照更瘦(2a)、更白(2b)、更幼(2c)的审美价值取向进行美学实践。

此外,美貌还具有一定的性别意义,人们对不同性别有差异化的生理特征期待(Yarosh2019),女性相比男性承载更多关于容貌的压力(Mazur1986),因此,在验证上述假设时,本研究中将性别因素纳入考量.

(三)研究数据

本研究采用西安交通大学人工智能与机器人研究所(IAIR)发布的东方人脸库(Oriental Facial Database, OFD)的视点子库(IAIR2016)。该数据库包括1247位志愿者的人脸数据。4台柔光箱和5盏灯被精心布置在拍摄暗室中的特定位置以营造多光源分布环境,模拟获得均匀一致的自然光。被拍摄者的头部被后部的头托固定,升降椅确保其双眼高度为1.3M。每位志愿者由19台(编号为C0C18)环绕的松下MDC-FZ30照相机拍摄19张间隔为10°的视点图像,其中C9号照相机获得被拍摄者的正面照片,数据样例如图2所示。本研究选取该数据库中由C9号照相机所拍摄的正面人脸照片展开后续研究。该数据集的志愿者以青年为主,有少量中老年人,男性数量居多,数据集中未标注被拍摄者的实际年龄、性别等人口统计学特征。

方法

(一)实验设计

本研究针对“颜值评估”算法和“人脸美化”算法开展测试,分别对应算法的审美取向及价值实践两个维度:

首先,我们使用Face++的颜值评估算法对1247位志愿者正面人脸视图进行颜值评分,并结合计算机视觉技术测量上述人脸的瘦削程度、皮肤白皙程度、视觉年龄特征。我们将上述特征与算法给出的颜值评分纳入回归分析,探究瘦削程度、皮肤白皙程度、视觉年龄与算法颜值评分的相关关系,并检验性别的调节作用,探究颜值评估算法中的价值偏向。

其次,我们使用“人脸美化”算法的默认模式对1247位志愿者正面人脸视图进行智能美容,并再次计算美化后图片中的人脸的瘦削程度、皮肤白皙程度、视觉年龄特征,将以上特征与美化前的人脸特征进行差异分析,分别探究算法是否按照其审美价值取向对男性和女性人脸进行美学实践。

(二)变量测量

1.人脸瘦削度计算

本研究基于面部高度和轮廓平均宽度的比值计算人脸的视觉瘦削值。根据Face++的官方文档,Face++的人脸检测API可自动检测出人脸的106个关键点(landmark)坐标,用以标记面部、眉毛、眼睛、鼻子、嘴唇的轮廓,如图 3所示。我们在本部分采用其中关于面部轮廓的关键点(共33点)计算面部高度和轮廓平均宽度。

首先,我们获取标记面部轮廓左上角、右上角的关键点contour_left_1contour_right_1的坐标,求取其连线中间点的横纵坐标;同时获取标记面部下部轮廓的关键点contour_chin的横纵坐标,计算二者的纵坐标差值,视为面部高度,如图4所示。

其次,我们获取标记面部左、右侧轮廓的16对关键点(左侧:contour_left_1contour_left_16,右侧:contour_right_1contour_right_16),计算每对关键点的横坐标之差,并求取16个差值的平均值,视为面部轮廓平均宽度,如图5所示。

在此基础上,我们求得面部高度和面部轮廓平均宽度的比值,视为面部的视觉瘦削值,瘦削值越大,表明人脸更瘦/窄;瘦削值越小,表明人脸越胖/宽。

需要补充说明的是,在现实中,由于咀嚼、睡觉的偏侧习惯等因素,人类的面部特征无法呈现像素级别的镜像对称状态、人类也难以精准地支配其头部作出绝对垂直于地面的端正姿态,但考虑到本研究的图片系在严格控制的实验环境下拍摄,并有头托以保证被拍摄者的头部总体端正,可认为图片中的人脸近似镜像对称。比如,我们近似地认为面部左右轮廓对应关键点之间的纵坐标差可忽略不计、眉心和下巴的横坐标差可忽略不计。

2.人脸肤色白皙程度计算

由于面部五官的凹凸,人脸皮肤呈立体而非平面样态,同一张人脸上不同部位的皮肤在自然光下带有不同程度的高光或阴影。不同的人脸由于五官凹凸、位置的差异,其面部光影分布有较大差异。在本研究中,我们选取眉心处的肤色作为每张人脸的代表肤色,一方面眉心位于面部中轴线,正对拍摄镜头,可避免面部左右侧的凹凸带来的光影差异;另一方面相比下巴、嘴唇、鼻子等位置,眉心处于面部中轴线上较为平整的区域、毛发较少,其受到的光影干扰较少。我们使用Face++返回的两个关键点left_eyebrow_upper_right_corner(左眉右上角)和right_eyebrow_upper_left_corner(右眉左上角)的坐标计算其中点,视作眉心坐标,并进一步采集了眉心点周围的像素块(size=5*5),作为面部皮肤切片样本。

对于获取的皮肤切片样本,本研究采用HSV色彩模型计算肤色的深浅。相比RGB等模型,HSV模型更接近用户的视觉感观,其由HueSaturationValue三个值构成。Hue指色调,其值用来表达红、黄、蓝、绿等色彩;Saturation指饱和度,其值越大,表明颜色中包含的灰越少,颜色越纯;Value指明度,其值越大,表明颜色中包含的黑越少,颜色越明亮。由于本研究主要关注肤色的白皙程度,并不关心肤色的色调或饱和度,所以将HSV色彩空间的Value值纳入肤色计算。我们将皮肤切片中各像素的平均Value值视作皮肤的白皙程度,其取值范围为[0,255],其值越大,表明肤色越白,值越小,表明肤色越黑。

3.人脸视觉年龄计算

由于OFD数据库并未标注志愿者的年龄,本研究使用Face++人脸检测API返回的“年龄”属性,评估人脸所呈现出的视觉年龄。年龄数值越低,表明人脸更具幼态;年龄数值越高,则表明人脸更具老态。

4.人脸性别计算

由于OFD数据库并未标注志愿者的性别,本研究使用Face++人脸检测API返回的“性别”属性,根据视觉特征推断人脸所呈现出的性别。性别属性有两个可能的取值,Male为男性,Female为女性。

结果

根据上述计算机视觉方法得出的结果,OFD数据集中男性占73.94%,女性占比26.06%。数据集人脸平均视觉年龄为25.19岁(SD=5.62),面部瘦削程度介于0.921.31之间,平均白皙程度为224SD=11.92),女性视角下的颜值评分平均为64.41SD= 8.12),男性视角下的颜值评分平均为61.36SD= 7.61)。

对于假设1,我们使用回归分析探究瘦削程度、皮肤白皙程度、视觉年龄对颜值评估分数的影响,并探究人脸性别是否作为调节变量影响上述自变量与因变量之间的关系。在回归分析中,瘦削程度、皮肤白皙程度、视觉年龄、颜值均被标准化至[0,1]区间内;性别为定类变量,我们用1表示男性,0表示女性。由于Face++分别提供了女性视角和男性视角下的颜值评估分数,两个分数分别被放入两个回归方程,以分别探究其与自变量、调节变量的关系。

表格1中的结果表明,对于男性视角下的颜值分数,年龄增加对颜值评估结果有显著的负面影响,皮肤白皙程度和瘦削程度的增加可以显著提升颜值评估分数,性别不能调节年龄、皮肤白皙程度和瘦削程度与颜值评估分数的关系。表格2中的结果显示,女性视角下的颜值分数与自变量、调节变量之间的关系与男性视角下的类似,年龄具有负向作用、皮肤白皙程度和瘦削程度有正向作用,性别无调节作用。因此,我们的结果支持了假设1的推断。

经过美颜算法优化后,数据集人脸的平均视觉年龄为22.71岁(SD=5.00),面部瘦削程度介于0.941.32之间,平均皮肤白皙程度为229SD=11.85)。我们分别分析了男性人脸和女性人脸在美颜前后的视觉年龄、面部瘦削程度、皮肤白皙程度是否存在差异。表格3和表格4显示的结果表明,经过美颜算法的处理,不论被优化的对象是男性人脸还是女性人脸,人脸均呈现皮肤显著变白、面部显著变瘦、视觉年龄显著降低的变化,这支持了假设2的推断,即美颜算法按照颜值评估算法所持有的审美价值观进行美学实践,而这一美学实践的方向并不因人脸的性别而有所变化。另外,原数据集中被44张被识别为男性的人脸,在经过美颜算法的处理后再次检测性别时被识别为女性;原数据集中的所有女性,在经过美颜算法的处理后仍被识别为女性。

讨论

(一)算法审美与规训

社会的审美价值导向会对其成员构成潜移默化的规训。虽然多个文化中都有诸如“人不可貌相”、“ Never judge a book by its cover”等观点的格言声称颜值不应成为评价他人的标准,但是研究证实,面容姣好的儿童和成人给旁人带来的观感更积极,也更易受到更积极的对待(Langlois et al.2000)。在教育、职场、婚恋市场等场景中,颜值差异带来的机会差异也广泛存在(Biddle & Hamermesh1998McClintock2014Parks & Kennedy2007)。因此,人们往往会将社会的审美期待内化,期待拥有美貌会使生活发生积极的转变(Engeln-Maddox2006),并花费大量精力、金钱方面的努力以向社会审美观靠拢(HillRodehefferGriskeviciusDurante & White2012)。审美行为被认为是在他者凝视下进行自我监视的过程(Bartky2020),意味着接受潜在的结构化压迫(Craig2006)。

人工智能算法进行审美相关的价值判断则进一步将人类的容貌困于机器的度量之中。如果说人类审视自己的照片是一种现代形式的照镜子,通过它可以对外貌进行自我监视(YellowleesDingemansVeldhuis & de Vaate2019),那么颜值评估算法对人类的照片打分则使自我监视以一种更直接、数字化的方式存在,依靠自动生成的百分制颜值评分对人类容貌品头论足。此前,智能技术对个人生活方方面面(如睡眠、心率、情绪、运动)的测量便已经引发了学术界对“量化自我”的担忧(Walker Rettberg20149),颜值评估算法则在此基础上更进一步,将量化自我渗透至价值评判层面。颜值评估算法可以被看作一种智能化的审美监视(Elias & Gill2018),其以“科学”“量化”之名,试图使审美行为变得规范化,告诉用户怎样的面部视觉形象及隐含的人格在其价值体系中是受到欢迎的,虽然这一价值体系可能依附于特定的种族、性别、年龄、阶层等不平等观念(Lavrence & Cambre2020)。

从这种意义上,作为算法颜值评估的延伸,算法人像美化则进一步将这种审美规训以具象的方式呈现在用户面前。此前研究表明,对照片进行美颜操作的人会将自身与社会文化标准进行比较,也更容易将自身物化并产生对面部的不满,进而有更高的意愿进行整容手术(Sun2020);对面部的不满也会反过来增加对照片进行美颜的可能性(WangXieFardoulyVartanian & Lei2019)。在社交媒体语境下,将美好的自我形象进行在线展示的愿望进一步驱动了人们进行美颜操作(Chae2017);同时,人像美化技术催生的理想化的同龄人形象也可能会成为用户的社交镜子,加剧对自己身体的不满(FergusonMuñozGarza & Galindo2014Guest2016)。相比Photoshop等手动照片编辑软件,算法对人脸进行自动化美化的过程可被看作是指出人脸瑕疵的“科学”检查过程。用户看似是在自主地“管理”容貌,实则是接受算法审美的规范。不同于大众媒体上呈现的遥不可及的理想容貌,美颜算法对真实容貌进行的微调为公众呈现了一种私人订制式的理想化容貌,以(伪)个性化的方式告诫其与理想容貌的差异,让抽象的社会审美凝视在每一张面孔上得到具体的表达,理想容貌与现实容貌之间的差距便成为规训的方向。

(二)算法审美观的意识形态偏向

通过在控制条件下分析人脸图像的视觉特征与颜值评分之间的回归关系,本研究证实Face++提供的颜值评估算法和美颜算法均推崇瘦、白、幼的审美观。大量研究已经证实,对瘦、白、幼这一片面审美观的盲目信奉可能引发饮食失调、低自尊、年龄焦虑等若干身体健康和心理健康问题(KlaczynskiGoold & Mudry2004McCarthy1990)。为了实现瘦、白、幼的容貌期待,人们甚至不惜承担健康风险,通过手术、节食等手段追求符合这一严苛标准的美貌(Kwan2009Slevec & Tiggemann2010)。在这一背景下,颜值评估算法对该单一审美观的推崇意味着其不加批判地承袭了该审美观及其背后的意识形态偏向,这可能不利于多元、健康的审美观在社会中的形成。

更需注意的是,审美作为一种价值判断难以独立于社会价值体系,对特定审美观的推崇并不仅出于纯粹的视觉偏好,审美观社会建构过程往往依托于特定的意识形态偏向。比如,如前文所述,对肤色的偏好受到西方中心主义思想的影响,而照片编辑软件中的美白滤镜涉嫌以数字方式创建了新的种族歧视(Barker2020);对瘦削的喜爱可能与欣赏“脆弱美”有关,这种特质往往与较高的社会地位相关联(Mazur1986);对幼态的偏爱则反映出社会文化中抗拒乃至歧视自然衰老的价值取向(CalasantiSorensen & King2012),这一观念试图合法化基于年龄歧视的容貌期待,将年轻人的容颜视为理想的标准,暗指容颜衰老是应该通过使用美容产品以纠正的“问题”(Clarke & Griffin2008Kenalemang2021)。从这一维度看,算法的审美观存在种族、阶级、代际等层面的价值偏向。

如果进一步将算法审美偏向置于中国当下的互联网语境下来审视,其与“网红”文化的价值交涉则不可回避。不论是颜值评估算法对“瘦、白、幼”的推崇,还是美颜算法的自动化颜值提升,算法看似为每张输入的图片进行逐一审视,实则进行由“瘦、白、幼”单一审美观支配的自动化操作。所谓的“美颜、美型”无法根据个人面部特质进行多元的审美加工,而是成为制造流水线式“网红”美丽的自动化工具,使容貌去人格化、同质化。虽然“网红脸”近年来已经因虚假、千人一面等原因而成为互联网上具有讽刺意味的负面词汇(Zhang & de Seta2018),但完美的个人形象与成功的叙事仍然相互交织,将美丽视为商业资本的新型互联网意识形态方兴未艾(Dippner2018)。

特别是,近年来网红“从一个社会现象,变成一个经济模式,到如今变成一种大众日常逻辑”,其正在成为贯穿线上与线下日常生活、生产的后数字复制逻辑(张舸 & 李沐杰,2021)。基于这一思考路径,网红意识形态与美颜算法交织可导致双重后果,一方面美颜应用致力于通过“虚拟整形”,帮助用户轻松拍出“网红”风格的照片,成为助长标准化审美观及其背后意识形态的数字帮凶(Peng2021);另一方面在网红复制逻辑主导视觉审美的背景下,美颜应用自身的发展取向也被网红意识形态所绑架,面对移动互联网应用之间的激烈竞争,众多美颜应用不得不在标准化审美的道路上加速“内卷”,以获取产品辨识度,这可能使其在参数设定方面更为冒进,最终促成对单一审美观的螺旋式强化和合法化。类似地,美颜应用所延伸出的肤质评估、虚拟试妆、视频直播等“审美”相关的产品,也可以被理解为网红复制逻辑驱动各美颜应用进行横向扩张、竞争的表现。美颜应用因此扮演起促进网红审美观渗入线上、线下各场景的中介角色。

需要补充的是,性别也是常与审美价值观发生交涉的问题。本研究并未在统计结果中发现算法审美观在性别维度上的差异。不过有趣的是,在本研究中,有44张人脸图像原本被识别为男性人脸,在经过美颜优化之后,这些人脸却被识别为女性人脸;而所有原本被识别为女性的人脸在美颜优化之后仍被识别为女性。这说明“美颜”算法的优化结果强化了女性特征。这一发现可能有两种解释,其一,算法在对男性和女性的容颜进行评判时,均以“女性化”容貌特征为美;其二,鉴于女性群体是容貌类应用重要的目标受众,此类应用的训练数据和算法逻辑是为女性用户定制打造,将此类应用作用于男性是在设计者预期之外的非常规使用。在两种观点中,我们倾向于用后者来解释算法审美观中反映出的性别观念。对中国市场上的某美颜应用的调研发现,美颜产品用户中有超过70%为女性(Li2019)。此前研究认为,科学技术是性别化的,其中往往体现父权社会的价值观(Bray2007)。对美颜算法设计者的访谈也佐证了这一点,性别化的设计被内置于产品中,虽然设计团队以“为女性赋权”作为美颜应用的宣传语,但产品生产逻辑却实际上将女性限制在现有社会规范对女性的性别期待中(Peng2021)。从使用端来看,女性用户在使用照片编辑软件时,需要面对不平等的权力关系,进行基于男性凝视的自我监视(Elias & Gill2018)。考虑到近年来“女性被重新女性化”的社会文化背景(Yang2011),我们认为目标受众为女性的美颜算法并不持有中立的性别观念,反而正通过在审美观中强调女性的生理特征,与当前社会语境下的性别期待交织在一起,成为其在数字世界的助推者。

(三)算法审美观的透明性

如果说算法将人类的容颜置于其价值体系的凝视和规训之下,那么此类算法透明性的缺失则使人们缺乏对等的审视算法的能力。固然逆向测试使本研究得以窥知Face++算法颜值评估所秉持的“瘦、白、幼”审美观,但是Face++却未主动披露或解释其价值观。从颜值评估算法的说明文档来看,其仅告知了颜值分数的字面意义,对其背后的审美观既无主动的反思,也无向公众进行披露的意识。

事实上,算法价值决策的不透明性是学术界反对算法进行价值判断的理由之一,“确定和商定适当价值本身的民主进程有助于价值选择的合法化。通过坚持这些原则保持透明并且不(完全)自动化,我们保护了这些民主程序的完整性”(Nyrup et al.2019)。人工智能的黑箱特征、代码版权保护等因素是公众理解算法的现实障碍。当这些障碍存在于算法价值判断的过程中时,公众接受算法判断的结果即意味着将价值决策权让渡给未知的原则,这不仅是人机之间的价值决策权争夺,也是作为产品使用者的公众与产品制造者之间的权力争夺。鉴于价值判断是人类社会表达期待的关键渠道,价值判断的结果对公众的认知和行为有导向作用。价值判断权力的归属偏差则意味着特定的文化力量、科技力量或商业力量可能以算法为中介增加了其对社会成员行为施加影响的能力,价值判断的不透明性则无疑使这一影响面临不可控的危险。虽然理想化的算法透明性在可操作性、有效性方面仍存在争议(Kolkman2020),但是在算法偏差的测量被证明可行的背景下(Obermeyer et al.2019Sweeney2013),以可理解的方式解释或者呈现算法依托的价值观、提示可能存在的价值偏向风险,不仅在技术上可行,也对规范算法价值判断行为具有重要的人文意义。

结语

本研究聚焦于人脸分析算法的审美价值观问题,选取智能化人脸分析应用Face++作为研究对象,使用1247张在控制环境下拍摄的人脸正面视图对Face++中的“颜值评估”及“人脸美化”算法进行逆向测试。研究使用计算机视觉技术计算目标人脸的视觉年龄、瘦削程度、肤色白皙程度等面部属性,探究其与算法“颜值评估”结果的关联,并比较“人脸美化”算法是否带来上述属性的显著改变。研究发现,“颜值评估”算法推崇“瘦、白、幼”的片面审美观,而“人脸美化”算法则进一步将这种审美偏好付诸自动化的美学实践,这种单一审美观反应了特定的审美意识形态偏好。我们认为,作为一种具有科学背书的新兴技术,算法审美判断实质上是一种“量化”“客观”的智能审美监视,其以私人定制的方式对人类审美行为进行个性化的规训。同时,其透明性的缺失也使人类缺乏对等的审视算法的能力。

原文刊载于《国际新闻界》2022年第3期。

转自:“再建巴别塔”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com