投稿问答最小化  关闭

万维书刊APP下载

新计算社会学:大数据时代的社会学研究

2022/9/27 17:52:53  阅读:175 发布者:

新计算社会学(newcomputational sociology)这一名词在20148月美国社会学界举办的“新计算社会学研讨会”上首次提出。在这次会议上,来自美国顶级名校不同学科的学者展示了新计算社会学领域的最新研究成果。在本文中,我们试图回答三个问题:什么是新计算社会学,其产生经历了怎样的历程?新计算社会学包含哪些重要内容?新计算社会学将对社会学研究产生怎样的影响?

一、新计算社会学产生的历程

什么是新计算社会学,目前还没有人给出一个明确的定义。新计算社会学不是一个特定的社会学理论流派,也不是某种特定的研究方法。就现在的情况来看,笔者认为新计算社会学是当代社会学界借助计算机、互联网与人工智能技术等现代科技手段,利用大数据、新方法来获取数据与分析数据,从而研究与解释社会的一种新的范式或思维方式。其目的是要克服既有社会学研究方法的局限与不足,达到对人类行为与社会运行规律的真实认知与科学解释。

笔者认为,新计算社会学的产生是大数据时代社会学发展的必然结果。当代计算机科学、互联网与人工智能技术的发展是新计算社会学产生的基础条件,而社会学家对社会学研究新方法的不懈探索与追求,是新计算社会学产生的内在动力。

社会学从产生、发展到现在,所走过的是一条坎坷不平的道路,正如美国社会学家柯林斯和马科夫斯基所说的,社会学并不是一门不可能的科学,但的确是一门很艰难的科学(柯林斯、马科夫斯基,20061-23)。所谓很艰难的科学,主要是指社会学在研究方法上经历了一个艰难探索的过程。

社会学研究方法被作为重要问题进行探索并引起争论开始于20世纪50年代,此时西方社会学的定量研究迅速发展成为主流研究方法。随之而来的是对各种方法的争论。这次会议对此后包括社会学在内的社会科学研究方法的发展起到了重要的推动作用,特别是进一步提高了定量方法在社会学研究中的主导地位。

进入20世纪70年代后,由于计算机的发展与广泛使用,以及由此所带来的各种数据分析统计软件的问世,社会学研究在大样本问卷调查、数据的多变量统计建模与分析方面,达到了一个前所未有的水平。与此同时,人们也在积极探索其他研究方法,如进行社会科学实验和开展社会现象的计算机建模研究,等等。

尽管如此,社会学研究方法所面临的问题似乎越来越多、越来越严重。社会学研究方法所面临的困境,实际上是人类行为研究所受时代条件限制的反映。大数据时代的到来,正在为社会学研究方法突破困境创造条件。

20世纪90年代中后期以来,一系列技术进步使得社会学研究方法的进一步创新成为可能,其中最重要的成就表现在四个方面:其一,社会网络理论与研究方法的发展;其二,人工智能的发展带来新型文本与影音资料处理系统的问世;其三,计算机模拟领域内基于行动者模拟方法(agent-basedmodelingABM)的发展;其四,互联网的快速发展,特别是移动互联网时代的到来。1996年,经济学界先人一步,出版了《计算经济学手册》(Handbookof Computational Economics)第一卷(Ammanet al.1996),正式宣告“计算经济学”的诞生。在最近10年内,正是这些新的理念和技术推动着人们不断探寻社会学研究方法上的突破,为新计算社会学的产生做好了必要的准备,新计算社会学的孕育过程逐渐完成。

2009年,包括哈佛大学教授拉泽尔(Lazeret al.2009)在内的15名顶级学者在《科学》(Science)上共同署名发表论文,正式提出“计算社会科学”(computationalsocial science)这一概念。文章预言一个以新电脑技术、互联网为基础,具有无限可能性的计算社会科学的产生正在成为现实,甚至在谷歌、雅虎这些大型企业内,已经开始了计算社会科学的研究。过去,我们只能够获取间断的、片面性的社会数据,而如今,借助视频监控、电子邮件、计算机智能命名系统等,社会科学家搜集与处理海量数据的能力得到了空前提升,这正是计算社会科学得以产生的一个重要原因。另一个原因是认知科学的发展。人类对自身认知机制的深入了解,神经生物学、计算机科学以及其他学科的融合,为人类行为研究的计算机模拟提供了条件。拉泽尔教授等人的论文列举了一系列计算社会科学可以大显身手的研究领域或研究对象,由此展示和证明计算社会科学的魅力与发展前景。这些典型例子包括:利用视频监控设备记录婴儿最初两年的所有成长数据,以此来研究婴儿的成长机制;通过收集人们的电子邮件数据研究人们的互动行为;利用“社会测量计”(sociometer,一种形状类似身份卡,可以别在胸口,能够捕捉一定范围内行为者的空间位置、互动情况等信息的电子检测仪器)和手机上的GPS记录软件进行人们行为的时空社会学研究;通过社交网站来收集数据,对每个人的健康、心情与品位及行为方式等众多变量进行测量;通过互联网收集美国政治竞选时期谣言传播的数据,分析谣言传播的模式,特别是可以利用互联网进行以前无法进行或不被允许进行的社会实验;大量的文本资料将能够被数据化……这些新技术的应用,将使得经济学、社会学、政治学等社会科学的研究进入一个新的时代。

“新计算社会学”中的“新”,其一是指新计算社会学在理念、方法、思路、工具应用等方面比此前的社会学研究中的“计算”都更为先进和复杂。其二是“计算社会学”(computationalsociology)这个名词已在瑞泽尔(GeorgeRitzer)2007年出版的《布莱克威尔社会学百科全书》(BlackwellEncyclopedia of Sociology)中出现(Bainbridge2007),只是该书中“计算社会学”词条的内容与“新计算社会学”不同,为了与之区别,2014年的斯坦福会议才提出“新计算社会学”。

“计算社会科学”概念提出到“新计算社会学”新名词问世,中间经历了5年时间(2009-2014)。在这5年中,社会学家受到了计算社会科学的启发和影响,但鉴于社会学在社会科学中的独特性,社会学家认为社会学有必要脱离计算社会科学而自立门户。所谓社会学的独特性,是指社会学的研究对象、理论视角和研究方法的要求等与其他社会科学如经济学、政治学存在区别。“计算社会科学”与“新计算社会学”中核心内容都是“计算”,其重点都在于计算机科学、互联网与人工智能技术等的有效应用,只是二者在面对不同研究对象、不同理论解释框架和不同研究方法要求的条件下,“计算”的理路、方法与工具存在差别。

二、新计算社会学的五大内容

新计算社会学的目标是借助各种与社会学研究相关的新技术、新工具、新手段,克服以往社会学研究中存在的各种缺陷与障碍,提高社会学研究的科学性与有效性,开创社会学发展的新时代。要实现这个目标,必须实现社会学研究各个环节、各个方面的创新,因此新计算社会学实际上是一个全面创新的社会学研究方法体系。根据对现已发表的论文和在会议上展示的研究成果的分析,我们将其划分为五个互相关联的组成部分:大数据的获取与分析、质性研究与定量研究的融合、互联网社会实验研究、计算机社会模拟研究和新型社会计算工具的研制与开发。

()大数据的获取与分析

数据、资料的获取与分析,是社会学研究的两大关键问题,也正是在这两个环节上,社会学研究受到的批评和诟病甚多。大数据的获取与分析,有望为解决问题找到新的突破口,例如金(King2009)提出,未来的研究可以从文本内容、选举活动、商业行为、地理位置、健康信息等数据着手,通过大规模与时序性数据的研究改变政治学乃至社会科学的基础。

范德里特等(van deRijt et al.2013)关于“名气”的研究是在《美国社会学评论》(AmericanSociological Review)上最早发表的一篇社会学大数据研究论文。研究者发现,在名气等级体系中,处于底层名气最小的人们确实非常容易被人们遗忘,但在名气体系的上层,即便是在娱乐、电视、博客等看起来非常“健忘”的领域内,个人名气一旦建立,名气的自我增强、职业地位、纪念活动等都能保护个人名气影响力的长期存在。他的研究方法是从报纸上获取个体姓名出现的次数,出现次数越多,代表该人的名气越大(当然,作者也承认这种测量方法本身具有一定的局限性,一个人的名气也有许多是通过其他形式,例如影音资料或者民间口传的形式表现出来的)。作者借助“莉迪亚文本分析系统”(Lydiatext analysis system)作为研究工具。该系统利用其“自然语言处理系统”(naturelanguage processing)将文本变成时序化的数据并进行定量分析。作者分析了2004-2009年的2200种美国各类日报与周刊,既有全球性媒体如《时代》(Time)周刊,也有地区报纸如《萨克拉门托报》(SacramentoBee),期刊的内容更是遍及要闻、政治、体育、时尚、娱乐等各个领域,从这些报刊中,作者提取出了10万个姓名。为保证数据的合理性,删除了大量过于常用的姓名(以保证不会有同名人士多次出现引起测量干扰),也消除了虚构人名、去世人的姓名等干扰。在这10万个姓名中,大多数的名字在媒体上只出现过几次,但也有上百人的姓名出现了1万次以上,从而形成了一份包含姓名及其每天出现次数的“大数据”。接下来,范德里特等对这些人名进行了分布分析与流动性分析,他的数据处理过程并不复杂,只用到了非常简单的社会学统计分析方法,但他的数据搜集与整理的工程却非常繁琐,从几乎全国所有杂志中提取和统计人名,在大数据时代到来之前是无法想象的。

大数据社会学研究所采用的数据量远大于传统的实证社会学研究,与上文相似,加州大学伯克利分校教授梁(Leung2014)对求职网站进行了一次研究,分析了某求职网站上2000-200416569名自由职业者对119648份职业提出的964034次申请;萨韦德拉等(Saavedraet al.2013)关于股票交易员行为模式的研究更是实时记录了200711-20081231日这两年间的30万次详尽的股票交易记录;乌兹等人(Uzzi etal.,2013)与古德和梅西(Golder& Macy2011)的研究,其数据量达到数千万乃至数亿;米歇尔等(Michelet al.,2011)利用谷歌图书进行的文化分析,研究了1800-2000200年间英语世界文化的流变趋势,其数据库甚至覆盖了人类所有出版书籍的4%,是大数据研究的里程碑式的成果。

从以上代表性文章来看,大数据与传统数据的区别主要在于三个方面:第一,传统数据样本量一般较小,而大数据论文则动辄数十万、上百万,大数据环境下,样本几乎等于总体,研究者甚至没有进行抽样的必要。第二,传统数据常用问卷调查方法获取,数据主观性高、可信性低,而大数据论文所采用的基本上是“自然数据”,这些数据并不通过问卷获得,而是在现实生活中自动形成,可信度大于传统问卷调查数据。第三,传统数据的产生过程是“搜集”,设计问卷后进行调查,问卷的针对性强,但问卷的应用范围受到限制,为一个研究而进行的问卷数据搜集很难很好地应用于另一项研究,而大数据社会学研究则重在数据的“挖掘”,客观数据并不为任何一个课题而产生,而是对真实世界的自然记录,有利于研究者充分发挥社会学的想象力,可以挖掘的数据无穷无尽,可供研究的领域没有边界。

()质性研究与定量研究的融合

如何更加有效地利用文本、影音等质性资料开展研究,是社会学长期以来面临的难题。有效研究方法的缺乏,造成了质性研究与定量研究之间一直无法弥合的鸿沟。大数据时代的到来,为社会学的发展提供了更加有效的研究方法与研究工具,使定量研究与定性研究的融合成为可能。刘易斯等(Lewiset al.2013)更提出,大数据环境下,计算机方法与人工处理的混合使用,可以让传统的“内容分析”方法得到升华。

在发表于《科学》(Science)上的一篇论文中,古德与梅西(Golder& Macy2011)研究了人们每天或者每个季度的心情变化。要研究人们心情的变化趋势,通过对传统数据的统计分析可能力有不逮。研究者们通过大数据的应用与文本资料的量化分析很好地解决了这个问题。两位研究者通过数据挖掘技术从社交网站推特①(Twitter)中获取了来自82个国家240万人多达5.09亿条英语推特文。然而,推特文是文本资料而非数据,计算机可以识别却无法进行分析。研究者使用“自动文本分析系统”(linguisticinquiry and word countLIWC)对推特文进行内容分析。LIWC系统是世界上最先进的文本内容分析软件之一,通过对文本的分析,它能够识别出包括焦虑、愤怒、抑郁等在内的60多种人类情绪,并进一步将其归纳为“积极情绪(PA)与消极情绪(NA)”。通过这样的内容分析,研究者们能够从每一条推特文中识别出该段文字发表时作者的积极或消极情绪。分析结果发现,人们在早上起床时的心情一般都很好,但在一天中会逐渐发生变化;人们在周末更加快乐,但是这种快乐峰值到达的时间要比工作日晚两个小时;人们的情绪会随着季节的变化而发生变化;等等。

与此类似,麦凯尔维等人(McKelveyet al.2014)也运用同样的方法对3万名用户的11万条推特文进行分析,研究了网民关于国会选举的讨论与他们线下政治行为之间的动态关系;乌兹等人(Uzzi etal.2013)则对发表在各类学术期刊上的1790万篇文献的质性内容进行了定量分析,探索学术创新的规律及其影响因素,得出了颇有价值的研究结论。此类研究的另一个特点是“可视化”方法的成功应用,许多质性数据并不一定要进行复杂的模型研究,往往只需要实现简单的可视化处理,就足以揭示出非常重要的现象与规律。

定性研究与定量研究融合的关键是文本资料分析工具的研制与开发。从现在的情况来看,虽然这个领域的研究工作还刚刚起步,尚有很多问题需要解决,但其发展的速度很快,在短短的几年时间内已经研制、开发出多种文本内容分析软件系统工具。随着该领域研究工作的步步深入,各种更为先进、精细的文本分析工具(包括中文分析工具)会不断问世,真正实现定性与定量研究的融合只是时间问题,由此引发的将不仅是研究方法上的创新,更为重要的是导致人文社会科学研究理念和思维方式上的变革。

()社会学互联网实验研究

社会学的研究方法体系中早就有实验方法的位置,而且也有运用实验方法开展社会学研究的先例。但社会学界对实验方法一直存有戒心,因为运用实验方法来研究社会现象的确存在诸多难以克服的弊端和障碍。运用互联网这个平台来进行社会学的实验研究,是一种创新,而且有可能使实验法成为未来社会学研究的主流方法。

萨尔甘尼克等人(Salganiket al.2006)进行的关于文化产品市场不公平性的社会实验开启了互联网社会实验研究的先河。他提出一个问题:文化产品在市场上的流行程度受什么影响?一种观点认为市场中产品的质量决定它是否受欢迎;另一种观点则认为市场是不公平的,存在着“超级巨星效应”或者“赢者通吃”(winner-take-all)现象,因为人们对文化产品的选择受到其他人选择行为的影响。为了研究这个问题,研究者在互联网上邀请了14341名参与实验者,为他们提供48首从未面世的歌曲,并邀请这些参与者根据自己的喜好为这些歌曲打分或下载。参与者分为两组(实验组和控制组),实验组能够浏览别人对歌曲的评价,控制组则不能了解其他人对歌曲的评价。实验歌曲按随机排列的顺序同时提供给实验组和控制组。实验结果发现,在控制组中受欢迎的歌曲在实验组中更加受欢迎,表明人们对歌曲的评价受到了他人评价的影响,即存在所谓“赢者通吃”的现象。在更进一步的实验中,实验组成员看到的歌曲不再随机排列,而是根据下载量排列,控制组依然不能看到他人的评价,他们看到的歌曲依然随机排列。实验结果显示,实验组和控制组对受欢迎歌曲评价的差别进一步扩大。这个实验研究得出结论:首先,对文化产品而言,质量是关键的,因为无论是控制组(每个人单独对文化产品进行评价)还是实验组(每个人在参考他人评价的情况下选择文化产品),质量好的文化产品都更加受欢迎。其次,“赢者通吃”的现象确实存在,在他人选择行为的影响下,控制组中受好评的产品在实验组中更受好评,这说明文化产品市场上确实存在不平等性。

与此相似,麻省理工学院的森托拉(Centola2010)1528名实验参与者进行的社会网络中行为传播的研究、特维克瓦与梅西(Tsvetkova& Macy2014)进行的关于“慷慨”的社会“传染”实验都是社会学互联网实验研究的上佳之作。范德里特等(van deRijt et al.2014)关于个体成就的互联网实验更是通过四个公众网站,进行了四场社会学实验,成功地实现了互联网实验的“组合拳”研究。

社会学互联网实验是一种全新的实验方法,是真正理想的在自然条件下进行的社会实验研究。这种实验研究的优势在于,它不仅可以消除传统社会实验研究存在的某些弊端,如“霍桑效应”等,尤其是不受时间和空间的限制,这为社会学提供了通过互联网实验研究人类行为与社会现象的无限可能性,设计巧妙的互联网社会实验将会极大地扩展和丰富社会学家的社会学想象力。

()ABM模拟方法在社会学研究中的运用

社会学的计算机模拟研究方法已经发展到第三代,即“基于行动者的模拟方法”(agent-basedmodelingABM)

关于ABM方法在社会学研究中的具体运用,曼佐和波尔多萨里(Manzo& Baldassarri2014)关于社会地位形成机制的研究为我们提供了很好的案例。在这项研究中,研究者假设,一个人社会地位的获得取决于其他人对他的“礼敬”态度,人们对他越礼敬、越尊重,他的社会地位越高。社会中存在两种互相冲突的机制来决定一个人得到的“礼敬”,分别是制造不平等的“社会影响”(socialinfluence)机制和限制不平等的“相互礼敬”(reciprocationin deferenctial gestures)机制。“社会影响”机制遵从现实法则,一个人的成就如财富、权力越高,其他人对他的评价就越高,因而对他越礼敬尊重,社会地位也就越高。在这种机制中,对他人的“评价”等于对他人的“礼敬”,因而这种机制追求“公平”而不是“平等”。“相互礼敬”机制则只关注人与人之间的互相尊重,一个人如果对他人足够尊重,他人也会反过来给予他较高的“礼敬”,从而获得较高的社会地位,反之亦然。因此,这种机制中对他人的“评价”与对他人的“礼敬”并不一定相等,人与人的互相尊重能够促进人与人社会地位的平等。

研究者在计算机中构建了包含30名行动者的虚拟空间,每名行动者具有不同的内在素质(instrinsicquality)Q,代表该名行动者的成就。互动中的行动者对彼此的素质进行评价,得到评价值q,并根据这个评价值来赋予对方一定的“礼敬”a,行动者在多次互动中收获到礼敬的总量决定每个人的社会地位S,这样的过程重复N次“迭代”。

N次迭代后,如果社会地位S与内在素质Q高度一致,则说明成就越高社会地位越高,遵从的是公平但不平等的“社会影响”机制,否则说明“相互礼敬”的机制发挥了作用,社会地位分层更趋向于平等。

一般情况下,当迭代次数N足够大后,模拟的结果将会趋于稳定。这个ABM模型模拟的正是人际交往中的人际社会地位形成的机制。一方面,他人对此人的评价与个人成就直接相关,追求公平而不是平等;另一方面,交往中的“相互礼敬”与“以眼还眼”等规则不关心个体成就而关注个体在交往中的受尊重情况。迭代T次之后所有行动者的地位状态若与每个行动者的内在素质高度一致,则说明社会地位是不平等的,若与行动者的内在素质相似性不大,则说明社会地位的分布更倾向于平等。计算机模拟显示,在一个社会中,人与人之间的互动越容易发生,人们越能够遵循“以眼还眼”的原则,则社会地位的分布越趋向于平等。

ABM计算机模拟方法在研究复杂社会现象的演化过程与变化机制方面,具有其他研究方法所无法比拟的独特优势。随着ABM方法的不断完善与成熟,它在社会学研究中的运用会越来越普遍。但它的运用也对研究者的数学能力提出了比较高的要求,有些研究者具有很强的理工科背景,其使用的数学方法更是艰深。例如森托拉(Centola2013)关于自增长型群体的研究,甚至使用了物理学中的临界质量公式,读者如果不具备相当的数理能力,几乎无法阅读和理解。

()新型社会计算工具的研制与开发

新计算社会学是一个新的社会学研究方法体系,它产生和发展的物质基础是互联网,其支撑条件是计算机、人工智能等新技术。在新计算社会学实现其研究目标的过程中,需要综合运用互联网技术、计算机以及人工智能技术,根据数据获取与分析的要求,开发出能够有效实现研究目标的具体操作工具,我们称之为新型社会计算工具的开发。

新型社会计算工具多种多样,可以根据具体研究的需要进行研制与开发。例如,麦考利与莱斯科韦茨(Mcauley& Leskovec2014)开发出一种网络算法,用以检测社交网络用户各类联系人的信息,包括姓名、年龄、职业、学历等。把这些信息与网络用户本人的信息进行对比,通过各种测量相似性的算法,估算联系人与用户的关系,将这些不同的联系人归入不同的组群(如好友、同事、同学等),实现用户个人网络的自动分组。该算法在实验验证阶段已经获得了成功。这个新型社会计算工具的开发更像是为谷歌、脸书等网站进行的改良顾客体验的研究,它如此技术化,以至于许多社会学者几乎无法看懂。但这种研究对社会网络研究与社会网络理论的发展意义重大。运用这种工具,研究者们能够从社交网络媒体中挖掘出大量的社会网络数据,并有可能利用这些数据进行更大规模、更精准的社会网络实证分析。类似地,韦斯特等人(West etal.2014)开发出了一套文本分析方法,能够对维基百科语料库(WikipediaRequests for Adminship Corpus)与肯沃特国会演讲语料库(ConvoteCorpusof Congressional Speeches)进行处理,获取大量的社会网络数据。马瑟等人(Mathuret al.2012)开发出的视频文件内容分析方法能够通过对视频与照片文件进行“内容分析”,分析人与人之间关系的亲疏程度,实现人际网络结构的自动识别。

新型社会计算工具的研制与开发,方式与途径多种多样。为了进行某项课题研究,社会学研究者与精通计算机技术的专家合作,可以量体裁衣地开发出研究所需要的某些小型工具。但对于那些大型且功能复杂工具的研制,则需要依赖多学科的共同努力,借助专业公司的力量,甚至依靠国家的实力才能完成。

(来源:罗玮,罗教讲;《社会学研究》2015年第3期)

转自:“量化研究方法”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com