当社会学与大数据相遇，会发生怎样有趣的化学反应呢？

2024/1/23 10:56:51　阅读：169　发布者：

文章来源：群学人

编者按：

2011年,以让-巴蒂斯特·米歇尔( Jean-Baptiste Michel) 为首的研究团队，通过谷歌语料库中的关键词频变化，展示了五百年来人类文化发展史中鲜为人知的现象。这个全新的研究领域，被称为“文化组学”（culturomics）。

南京大学陈云松教授首创性地将该研究方法引入社会学领域，利用谷歌语料库海量数据的词频分析，展示了社会学的学科轨迹、名家大师、理论流派、领域热点、分析方法，以及中国社会学在文化影响力维度上的百年变迁，同时对建立"社会组学"进行了展望。

陈云松教授是国内社会学领域首倡大数据分析的学者，他和他的研究团队利用社会科学大数据，已经在国内外一流期刊发表了一系列研究论文。

本研究为利用大数据进行人文社科研究提供了初步经验，也是作者在国内进行大数据分析的开篇性作品。

正文（有删减）：

大数据中的百年社会学

——基于百万书籍的影响力研究

陈云松

数年前，哈佛的加里·金在展望政治学的未来50年时就预言，随着大数据的出现和使用，整个社会科学研究的实证基础将会出现重大的变化，甚至会加速定性与定量研究的大融合(King，2009 )。

不过，“大数据”概念虽热，但社会科学界基于大数据的实证研究却比较薄弱。

社会学自19世纪末诞生以来，理论和方法日益丰富，学派和名家不断涌现，其理论和成果对人类经济、政治和社会文化生活的影响也在不断扩大和深入。在学术界内衡量一个学科或者某项研究成果的影响，我们往往依靠学术文献和引用指标(如学术书籍、学术期刊、论文引用影响因子)，不过，要在更为宏观的时间、空间维度上观察甚至评估理论的发展、学者的成长乃至整个学科对于人类知识谱系的影响力，也即“文化影响力”，则要复杂和困难得多。

现在，基于大数据的词频统计技术为这一领域的探索提供了可能。本文将利用谷歌语料库千亿量级的海量数据，通过对社会学关键词的词频分析来初步展示百年社会学发展历程中的现象和规律。本研究也是我国社会学领域的首次大数据分析尝试。表1 分别展示了谷歌图书语料库的主要构成。

▼ 表1 谷歌图书语料库的构成（2012年第2版）

书籍是承载人类知识、观念和思维的最主要的载体。只要语料库具有足够的代表性，我们就可以认为一个词汇在书籍中出现的频率，能够近似地反映这个词汇及其相关意蕴的"文化影响力"(涵盖知名度、关注度、影响力等多个维度)，甚至折射出某种社会趋势、风尚或思潮(Twenge et al.，2012)。

（一）大数据中的社会学学科轨迹

我们通过与兄弟学科进行对比，分析“社会学”（sociology）这一最重要的学科关键词自1850年以来在英语书籍中的出现频次。

▲ 图1 英文学科名称的词频比例曲线（1850-2008）

从图1可见，与其他社会科学门类相比，“哲学”词频出现更早、占比更高。在19、20 世纪交替的自由资本主义发展晚期，哲学词频曲线进入了下降通道，直到 20 年代才开始恢复。实际上，哲学史上与此对应的正是19世纪中叶德国古典哲学尤其是黑格尔学派的解体。

而在哲学词频曲线缓降的世纪之交，其他学科词频则各自崛起。社会学、经济学、心理学和人类学的词频自19 世纪中晚期开始一直到20 世纪30年代初均保持了强劲的上升，而心理学和经济学的势头尤其明显并逐渐拉开与社会学和人类学的距离。

第一次世界大战期间(1914-1918)，社会学、经济学和心理学的词频并未衰减，而二战期间(1939 - 1945)这三个学科颓势明显。这似乎意味着二战对于社会学、经济学和心理学的冲击比一战明显得多。

同样有趣的是，二战对人类学的词频曲线非但没有负面影响，甚至还微微提升了增幅。这可能是因为:与一战相比，二战的交战区域和深度卷入的交战国扩大到了亚洲和大洋洲。空间跨度更大的战争，一方面使得应用人类学得到参战国有目的的资助，另一方面人类学者本身的研究视野也得以从非洲、印第安部落等传统对象里解脱出来，辐射到东欧、东南亚等地区。

（二）大数据中的社会学名家

我们对社会学科领域较为知名的30位西方社会学家的英文全名进行了检索。图中展示的是词频比例曲线总体水平比较高的前12位。

▲ 图2 百年社会学大师的词频比例历史曲线（1850-2008）

从图中我们总结如下几点：

（1）稀释效应。

从马克思到吉登斯，后人似乎再也难以超越前人在文化影响力方面的辉煌。这个发现并非是指社会学家个体的影响无法超越某一位前辈，而是指在群体的层次上，后期的大师要超越甚至接近早期大师达到过的巅峰，几乎是不可能的。

我们推测，这种现象可以归因为两个方面：

第一，近一百年来人类知识总量和门类的快速增长。进入20世纪和21世纪，尽管社会学本身在不断发展，但其在人类总体知识中的相对影响力也即词频比例却比以往下降了。

第二，社会学总体知识也在增长、裂变，所以后来者很难超过前者。这种现象也可以说是路径依赖或者先发优势。

（2）外力效应

和其他社会学家相比，词频比例曲线的上升阶段平均斜率最高的是斯宾塞和马克思。不过，他们影响力的迅速崛起，有着截然不同但都异常强大的学术之外的力量支撑：斯宾塞借助了高质量的社会网络并充分发挥了自身的多面手优势，在知识总量相对不多的 19 世纪末就顺利达到了影响力巅峰：而马克思则依靠其改变20世纪全球政治格局的理论力量，在一个世纪后走向影响力的制高点。

（3）加速效应

在 20 世纪，社会学家的成名越来越早。除了情况特殊的斯宾塞，举凡出生在19 世纪的社会学大师，都是"身后成名"。例如，马克思逝世于1883年，而他的词频快速增长在其辞世20年后的20世纪初才出现。韦伯1922年去世，他的名声鹊起，恰恰从其去世后才开始。

生于20 世纪的晚辈社会学家们则幸运得多。例如，帕森斯在40年代就开始快速成名，其时不过40多岁，而吉登斯也在不惑之年开始成名。

这种个人影响力方面的代际差异，我们称之为加速效应，并归因于20世纪社会学学科体系不断发展和规范化：在19世纪晚期社会学草创之初，学者数量少，学科发展水平较低，传播交流社会学的途径有限，这就使得社会学者发挥影响力所需要的时间大为延长。

而随着社会学学科发展加快，大学社会学系科的建立和发展，学者拥有越来越好的的学术阵地、生活保障以及期刊书籍等媒介来发挥影响力，这使得20世纪的学者能够在健在时就看到成就被社会认可。

（三）大数据中的社会学理论

我们可以通过对经典社会学理论关键词的词频分析，了解社会学的直接成果对社会的影响和变迁。考虑到19世纪社会学大师多进行的是开创性、奠基性的工作，我们把注意力集中在20 世纪中期以来的社会学理论。

▲ 图3 社会学理论的词频比例历史曲线（1940-2008）

从图中我们归纳出如下几个现象：

（1）理论的生命周期

我们发现，理论从提出到成型、成熟再到式微有一个生命周期。在 20 世纪中后期，绝大部分理论从提出到达到词频比例的最高点，总体上需要30-40年左右。此后理论的影响力开始缓慢下降。但由于尚未观测到稳定的最低谷，因此我们尚不知理论衰退所需的时间。

（2）理论的新陈代谢

例如，结构功能主义、新功能主义词频比例90年代中期就开始下降，而比它们晚出 20多年的结构洞理论却已经在词频上超越了前者。90年代以后，新生代理论呈现强劲的增长势头。如果我们把弱关系和结构洞理论相叠加，其词频比例在28年左右已经可以超过交换理论和结构化理论。也就是说，新兴的社会资本或社会网理论，文化影响力实际已开始超越经典理论。

（3）理论的解释层次

一般我们会认为，宏观大理论具有更高的概括能力和更宽的辐射使用面，也因此会具备较大的影响力。但是我们发现，起码20世纪中期以来理论世界不再由宏大叙事主导。例如，结构化、结构功能主义、新功能主义均处在词频坐标的中下游，虽然历来是教科书的重点，但和常人方法学、符号互动理论、理性行动理论等基于行动的理论相比存在不小差距。

此外，随着时间推移，大理论的空间似乎越来越小，70 年代之后兴起的弱关系、结构洞等理论，关注面都非常集中。我们推测，盖因大理论过于野心勃勃而降低了解释力和吸引力，且又越来越缺乏空白的生长点。因此，社会学可能开始进入某种"后大理论"的时代。当然，这一推测是否合理尚待时间检验。

（四）大数据中的社会学研究领域

社会学研究领域众多，且非一成不变。一方面，社会学拥有众多的子学科;另一方面，学科的研究热点也随时代进步而不断转移变化。利用大数据我们可以对社会学子学科的结构和变化进行分析，也可对研究热点的变迁进行一些解读。

▲ 图4 社会学子学科的词频比例历史曲线（1900-2008）

我们从图4发现几个有趣的现象：

第一，教育社会学无疑是社会学中最有分量的。不过，从60年代后期开始，教青社会学更多称作 sociology of education (SE)而不再是早期的 educational sociology (ES) 。这主要是因为，早期的 educational sociology 主要关注的是文化和社会因素，研究如何给公众提供更好的教育，而 sociology of education 则关心的是国家、政府和个人因素对个体教育结果的影响。

第二，我们把90年代后词频不断增长的子学科用实线表示。可见，宗教社会学和历史社会学发展势头比其他领域要强劲，而经济社会学保持平缓发展，其他子学科词频都呈下降趋势。

第三，农村社会学60年代词频比例增速极高，进入80年代后期甚至超过教育社会学，完全压倒了其他分支。

▼ 图5 社学会研究热点领域的词频比例历史曲线（1880-2008）

在图5中，我们比较了社会分层和流动、社会资本与网络两大研究领域的8个最具代表性的术语，这两个领域的研究，集中了社会学近10年来的热点。但它们的词频比例却不尽相同。

社会分层和社会流动的词频比例在1975年左右达到高峰，然后开始下降。而社会运动和社会网络则从80年代末90年代初迅速上升，约在世纪之交分别超越了社会地位和社会流动。同样在这段时间附近，社会资本的词频比例也迅速超越社会流动，且增长速度更快，到2003年左右已经超越了社会阶层成为词频最高的领域。

（五）大数据中的社会学研究方法

我们探索了社会学研究方法在书籍中的出现频次。

▲ 图6 定量与定性研究方法词频历史曲线（1950 -2008）

从统计图中可以发现：

第一，无论是定性还是定量，词频曲线几乎全部在持续增长。

第二，定量方法和定性方法在语料库的词频比例存在差别。用OLS的词频为基准进行比较，我们就会发现除了历史悠久的内容分析方法，总体上其他定性方法词频都不高。

第三，定性方法中扎根理论的扩张速度十分可观，超过了其他定性甚至不少定量方法。其他定性方法发展势头平缓或走向式微。

第四，定量方法中，影响力最大的就是使用率最高的OLS,logit和Probit模型。其余依次是固定和随机效应模型、结构方程和主成分分析法。其他方法的影响力则和一般的定性方法相差无几。

第五，社会网分析和倾向性匹配在2000年左右异军突起。

值得注意的是，由于数据限制，社会学定量研究中使用固定或随机效应模型的还比较少，而主成分分析法、结构方程和社会网只能适用于特定研究主题。我们也测试了多层模型(multilevel model)、潜类分析 (latent class analysis) 和赫克曼方法(Heckman selection) 等其他关键词，但词频比例都比较小。因此，我们认为倾向性匹配、工具变量、多层模型和赫克曼方法是社会学定量分析中最富有潜力的方法群。

（六）大数据中的中国社会学

一般我们认为中国社会学的诞生标志是严复翻译《群学肆言》或更早的社会学著作，这一时间点在1894-1897年左右。而我们的检索结果表明，英语世界里第一次规模性提及"中国社会学" (Chinese sociology)早在1854年；第一次规模性提及"中国社会学家" (Chinese sociologist) 是在1927年；第一次规模性提及"中国的社会学家们" (Chinese sociologists) 是在1928年。

我们接下来观察一下20世纪中国社会学在全球社会学舞台中的位置，从图7中我们看到，欧洲的总体座次依次为德国、英国和法国。但出乎意料的是，"印度社会学"的词频统计在 70 年代后甚至超过了欧洲诸国。这可能要归因于印度庞大的人口和英语母语。70 年代末起，中国社会学的词频开始快速增长并超越日本，目前已和法国、加拿大与英国持平且仍在强劲攀升。

▲ 图7 中国社会学与社会学家词频曲线（1900-2008）

我们同时对比了中西方社会学家的词频数据，从图7中我们大致能推测出如下几个关联和特点：

第一，国际知名度变化和国家政治经济因素有关。能和格兰诺维特的词频统计相当的是费孝通。但我们随机查阅了费孝通名字出现的资料，发现有约四分之一的内容是因为费老担任的国家领导人职务。此外，费老的词频高峰出现得非常晚。相比之下林南早在70年代词频统计就开始增长。这表明，改革开放之后，随着国力的增强和社会学的重建，大陆社会学家才得以享有国际学术界的知名度。

第二，国际知名度不完全等同于西方学术评价标准。例如，陆学艺的词频统计大大超过了谢宇、边燕杰等曾多次在英文权威期刊发表重要论文和出版英文专著的学者。这个排序恰恰表明：基于书籍大数据的词频数据比单纯学术评价指标更能反映文化影响力、知名度，陆学艺提出的十大阶层，虽未辅以复杂的数据和模型，但深切现实的观点、敏锐的洞察力和理论构建的勇气，就已奠定了他作为中国当代最重要的社会学家之一的历史地位和国际影响力基础。

第三，华人学者的国际影响力不断上升。在70年代，只有台湾学者林南的词频统计比较高。70年代末期，随着改革开放，老一代学者费孝通迅速取得了较高的词频比例，而新一代学者里李培林在80年代就已取得了一席之地。90年代之后，以李培林等人为代表的本土学者和以谢宇、边燕杰等人为代表的海外华人学者的词频比例大幅度上升。

（七）展望“社会组学”

回到让-巴蒂斯特·米歇尔提出的文化组学( culturomics )。这个词，实际是"文化" (culture) 和"基因组学" (genomics )二词的合并。其意义在于，单个的词汇n-gram就好比人类的基因，通过它们的排列组合，决定功能异常复杂的人类机体。如果我们把文化组学理解为一个最新的泛研究门类，

那么，社会科学领域的"基因组学"也应该呼之欲出了。对于这个新的子学科，我们不妨称之为"社会组学"(societalimics)。

它之所以有建立和研究的价值，是因为社会科学工作者以阅读文献的方式只能接触社会科学知识总体中非常有限的一部分。作为人的内在的学习能力瓶颈，这种不可避免的以管窥豹，会阻碍我们对宏观层面社会科学思想发展趋势的理解，不利于我们发现大尺度、大结构上的社会科学、社会思想发展规律。

而通过词汇的"基因"序列分析，基于越来越完善、开放和准确的大数据，我们有可能获得过去完全不可能获得的理论启发和学科知识。因此，我们呼唤学界重视并早日建成"社会组学"。

文源︱陈云松教授

转自：“量化研究方法”微信公众号

如有侵权，请联系本站删除！

上一篇： 数字人文的诞生——传统人文与计算技术碰撞出火花
下一篇： 学霸笔记第二期来啦！怎样做文献综述——六步走向成功（二）

投稿问答最小化 关闭

当社会学与大数据相遇，会发生怎样有趣的化学反应呢？

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

当社会学与大数据相遇，会发生怎样有趣的化学反应呢？

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭