陈心想:复杂社会研究中的计算及其局限
2024/1/23 10:49:16 阅读:39 发布者:
借助于互联网、人工智能和计算机科学的发展,计算社会科学的兴起确实为社会研究带来了很大的技术和方法上的突破和拓展。利用网络媒体和云计算等新方法来获取与分析数据,尤其是实时获取数据并通过“机器学习”赋能的“计算机算法”,为研究与解释社会以及预测社会提供了一种前所未有的新范式或思维方式。这也是计算社会科学作为跨学科的新兴领域发展如此迅猛的主要原因。然而,对复杂社会进行研究,计算仍然难以避免一些局限,理解这些局限对于利用计算来发展社会研究的理论和方法都有帮助。
第一,计算利用的数据难以涵盖复杂社会的各个构成要素和要素之间的关系。在传统的社会调查研究中存在数据难以涵盖社会中各类人的问题,比如社会学家埃里克·奥林·赖特在其《后工业社会中的阶级》一书序言中就专门指出,“具有讽刺意义的是,在马克思主义传统内,对资本主义的批判首先是直接对准资本家阶级中最富有的部分,对资本主义的道德谴责很大程度上是基于它使贫穷永久存在”。而抽样调查恰因条件有限,把阶级结构内的两个极端给漏掉了:资本的真正所有者(大资本家)和边缘的“底层阶级”(失业者和丧失劳动能力的人)。这种遗漏重要样本的情况,相信做数据调查的学者们不会陌生。
现在利用新的获取数据的方法也存在这样的问题,比如,穷人买车买房更需要借贷,但银行里没有他们的记录,如果根据算法提供的信用来实施借贷,那么这些人就得不到贷款;对于不使用脸书、微博、推特、微信等社交媒体的人员,在利用这些社交媒体记录的数据进行计算和分析时,同样会被漏掉;虽然谷歌书库已经有了世界多国数百年书籍的海量数据,但也只是其中的一部分,究竟有多大代表性,分析结果会有多大偏差依然是难以解决的问题。据《2021年全球数字概览报告》(Digital 2021:Global Overview Report),截至2021年1月,全球有52.2亿人使用手机,相当于世界总人口的66.6%,也意味着还有三分之一的人口没有使用手机。全球使用互联网的人数达到了46.6亿,比手机使用者还少,社交媒体用户数量占全球总人口的一半多一点。另外,有些社会特征很重要,但很难量化,也难以进入计算范围。以互联网为主要渠道搜集的信息,虽然样本量大,但覆盖范围的代表性比传统社会调查方法更难以把控。
第二,计算的算法是处理信息的逻辑,即使假定数据有了,采取何种算法依然是一大挑战。传统上的定量研究方法重在解释某个自变量与因变量的关系,尤其是识别其因果关系。利用数据训练获得模型后进行预测,是大数据算法比较关注的。这种以预测为目的的算法会把模型的具体设置作为黑箱,只要对预测变量的预测越精准就越好。比如高科技产业的性别歧视问题,谷歌2017年给出的报告称女性员工明显比男性收入低,但控制了晋升和主观业绩评估变量后,谷歌员工的收入就没有性别差异了。控制变量的增减也是模型不确定性的源泉。如果采用了不增加这两个变量的算法,谷歌员工的收入性别差异出现了,增加后差异就消失了。性别歧视就在于晋升和主观业绩评估,同样条件下男性更容易获得晋升和好的主观业绩评价。如果要做性别歧视的因果分析,算法的目的就不仅仅是用拟合度最好的模型来预测员工的收入。报告人该如何选择算法?评估和晋升这样的预测收入很强的变量是否放进模型?这就涉及模型的不确定性。
模型的不确定性给一些研究者提供了“挑樱桃”的机会。假定一个模型里有13个控制变量,与自变量进行不同的组合,会产生8192种不同模型,也就是8192种不同算法。假定我们要评估某个政策实施后的效果,如果有十来个控制变量,在数千个算法中,自变量系数可能有这样两种基本情况:(1)全部为正值(或者负值)且统计学意义上显著(或者部分显著);(2)有的估计系数是正值,有的是负值,有的显著,有的不显著。假定系数全部为正值且都显著,那么报告人该选择哪个报告?如果有正值有负值呢?康奈尔大学克里斯托巴·杨格发明了一个检验模型稳健性的办法,即把所有系数分布公布出来,把报告模型的结果放在分布图里,一并呈现给读者。计算的逻辑需要人来解释和赋予意义,数字和算法本身并没有意义。除了模型选择问题,算法的不确定性同样存在于数据搜集、清洗和指标建构等全过程。克劳迪娅·瓦格纳等人在《自然》杂志上发表论文《测量融入算法的社会》,讨论当根据特征进行个人推送这类算法蔓延至社会后,对社会的测量受到(错误)测量后果影响,产生了测量质量欠缺问题。因此,计算社会科学也面临着如何保证测量的效度和信度等问题的挑战。
第三,算法与复杂社会的动态演化涌现的不确定性与预测算法背后的人的因素都带来了计算在复杂社会研究上的局限。人工智能先驱赫伯特·西蒙研究人工智能的初心是解决人的决策问题。在经济学领域获得诺贝尔奖是源于他提出的有限理性和满意理论,改变了经济学原来对人的完全理性和寻求利益最大化假设。
复杂社会环境下,我们面临的挑战是看不见前方,不知身在何处;有危险因素;环境不是静态的,而是动态的。这样的复杂社会条件下,会发生涌现现象,任何细微变动可能导致不可预测的大的新现象的发生,且难以甄别因果关系。涌现现象不能简化为底层规律,难以甚至无法预测。复杂的“系统”涉及的不仅仅是游戏规则(算法),还有行动者及其在每个选择点上对大量可用选项做出的决策。复杂社会里,人们的有限理性和数据与算法的有限性的结果是,即使有实时数据也很难精准预测比较满意的下一步(更无法知道是否最优)。我们知道步步看起来都最优的决策的“贪婪算法”并不可取,因为最后往往不是全局的最优解。有时候,人生就像一条有很多极值点的函数,站在导数为零的极大值点,虽然迈出哪一步看起来都像往下走,但往往是那看似不理性的、向下走的一步,能让你发现更高的一座山峰。对于复杂性如此高的现代社会,看似理性的“贪婪算法”更不可取。在模型设置方面,哈佛大学克里斯托弗·温士浦教授认为,直觉、理论和事实以及运气都在帮助我们发现某种意义上最好的模型上发挥了作用。也即是说,虽然我们有很高级的计算技术,不断开发新的计算软件,但算法本身的决定因素中含有的运气成分是难以完全掌控的。复杂社会里的偶然性因素或者称运气成分时刻存在,对社会研究中算法的设置造成了难以解决的不确定性。即使基于主体的建模,即ABM(agent-based modeling),作为一种为解决复杂性而提出的仿真技术,也只能是在主体互动游戏规则方面有限模仿。
算法只是可能帮助我们为不确定性寻找一定的确定性,其背后是人的情感和偏好。人生中每个决策都是利用人生阅历作为数据,训练出“模型”,即认知模式,从而每天做出决策并采取行动。算法就在我们的日常生活中。作为计算社会科学学人,我们要比普通人更理解计算在面对复杂社会进行研究方面的局限,才能更好地利用计算为社会科学方法和理论的创新服务,进而为建设美好社会作出应有的贡献。
(作者单位:中央民族大学民族学与社会学学院)
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!