宏观定量社会学:大数据的人文社科应用
——陈云松教授在中国社会科学院大学举办的“计算与人文社科融合创新高端论坛”暨“计算社会科学研究中心”成立大会上的主题报告观点
人物介绍
陈云松教授,牛津大学社会学博士,南京大学--约翰斯·霍普金斯大学中美文化研究中心主任,社会学系教授、博士生导师,教育部“青年长江学者”,国家社科基金重大项目首席专家,国际华人社会学会常务理事,Social Science Research等杂志编委。主要研究领域为计算社会学、大数据、社会网络和社会治理。在British Journal of Sociology、Social Networks、Poetics、《中国社会科学》、《社会学研究》等国内外重要期刊和《人民日报》、《光明日报》等媒体发表论文多篇。曾获中国城市百人论坛首届“青年学者奖”、江苏省哲学社会科学优秀成果一等奖。
陈教授报告中总的观点是:
从传统定量社会学分析领域,到直接对复杂数据、复杂现象进行呈现和解剖的社会计算领域,在中间地带有一个非常重要、也是最需要社会学想象力、当前最有可为的新型研究地带:从大数据中或者利用机器学习、社会网分析等手段构建出以往社会调查难以获取的宏观社会学研究指标,再纳入经典计量模型进行因果推断。这种计算社会学的混合方法,有助于真正形成理论-数据的二元驱动。
我的主题报告题目是《宏观定量社会学》如何对大数据进行人文社科应用。我选的切入点会非常小,是具体的我们在当前社会学发展有定量、有定性、有理论,三架马车共同驱动的情况下,我们怎么能让大数据让社会计算的方法助力社会学的发展?我自己的感受是什么呢?大数据的出现,它提供了一个非常重要的功能,在于它为传统的研究提供了一些无法测量的指标。
我为什么着重讲这样一个功能呢?因为大数据和社会计算能够给社会学定量分析提供很多范式上的突破。比如写文章的结构,比如如何用机器学习进行预测?我们团队也在做,我们预测譬如北京地区首都地区大学生的性取向,用机器学习来做,因为直接做问卷调查可能拿不到正确的数据。类似这样的方法应用时影响人群会非常少,好多人不习惯这样的文章、看不懂这样的文章、也不愿意去看。我们希望传统定量分析跟大数据跟社会计算方法之间,构筑起过渡性的地带、一个领域。
这个领域恰恰又是当代社会学最需要的,我把它叫做宏观定量社会学,下面具体做一个汇报。
一
社会学定量研究的不同变量层次
如上图所示。
社会学定量研究不同变量的层次,这个很好理解,解释变量和被解释变量。当X和Y都处于微观层面时,做社会学定量分析的方法都很简单。怎么来做?譬如当我现在提出这个问题,一个人收入影响他的幸福感吗?我的方法很简单,我去做调查问卷,问3000人、5000人、10000人抽样调查,然后对他们进行一个回归分析,这个是标准的社会学定量分析的方法。问卷调查方法,回归分析。
那么另一类的问题,当被解释变量当Y处于微观个体层面,而解释变量处于宏观群体层次时,用传统定量方法也可以做。我们要分析城市收入不平等,比如每个城市基尼系数是否影响个人幸福感。同样用问卷调查做,只是模型从单层走向多层。问卷调查分析,多层回归。
第三类是Y处于宏观群体层面,而X处于微观个体层面。比如我们想了解个人收入怎样影响城市总体幸福感时,传统问卷调查和回归做不起来,没法回归。因为这是反映社会现象从个体向群体向宏观层次跃迁的一个过程。怎么来做呢?推动我们做计算科学的学者知道应该用仿真的方法,用多主体仿真(Agent-Based Simulation)建模方式来做。
还有一个,当X、Y都处在宏观群体层次时,我们怎么样来做社会科学的定量研究?比如现在想关心城市层面收入不平等影响城市总体平均幸福感。像这样的问题原来社会学关心得很少,特别跟经济学相比,经济学会看到大量市级、省级层面宏观的分析但社会学非常少。
宏观定量社会分析较少的原因?如上图所示,我总结在三方面:第一,宏观社会指标不多,什么意思?比如各级经济统计部门,统计部门省、市、中央的统计局统计的大多是:经济指标,很少统计你幸福吗?你对别人信任吗?信任程度是多少?类似社会学关注的指标统计得很少,我们在宏观层面、在县、市、省、国家和社会层面缺乏这样的数据。第二这样的分析样本比较有限。全国30多个省级行政区域,300多个市级区域,N比较小,可能要借助于时间序列或面板数据来做。第三个分析是宏观分析的生态谬误。两个变量X跟Y在个体层次上,X跟Y是正相关,可能在市一级、省一级、国家层面两个是不相关的。具体不多汇报,生态谬误是做宏观研究值得引起重视的一个问题。如下图所示:
早期的社会学家是很重视宏观研究的。恰恰因为生态谬误存在的可能,再加上当时入户问卷调查技术的成熟,导致到20世纪中期时,早期的做定量社会学的学者由研究宏观州层面、县层面、省层面全部转为研究个体层面。全部转为个体研究层面导致我们现在做定量社会学的人跟经济学不太一样,做定量社会学的总体套路、模式以个体样本拿来做分析。一做研究是一万人、五千人,五十万人的样本,个体层面分析,X、Y基本在个体层面,没有宏观层面数据。导致三个不利,第一个不利于大理论的发展。因为没有较大时间、空间尺度上的数据,对宏大理论难以进行经验验证,导致对定量研究的批评,说你沉溺于技术化、很窄的个体化的层面缺乏大的理论适应。如下图:
第二,对因果逻辑的推断也存在一些问题。更重要的我觉得不利于理解社会的跃迁,这是科尔曼最早就提出来的,从个体现象到群体现象,再到群体现象影响个体现象。这个中间的过程是什么?这是非常值得研究的一个领域。比如说X跟Y如果在个体层次上它们是正相关,但在群体层次上它们是负相关,为什么?社会学家必须去研究,但是传统的数据收集方式、问卷调查难以提供这样的一些社会指标。
二
大数量重启宏观定量社会分析
所以我现在提出计算方法的出现,特别是大数据的出现能够重启宏观定量社会分析。如下图:
重启宏观定量社会分析价值在哪儿?它不光能够提供以往问卷调查所无法获取宏观的数据,比如100年以来中国社会老百姓意识形态图谱。200年以来美国社会的社会信任等等,这类大的指标过去没办法测量。更重要的一点是我刚才提到,它可以形成学科过渡阶段。把这样“重要的指标”从大数据里面提取出来,用计算社会方法提取出来,然后把指标打包、修正,成为传统的计量模型,比如用OLS模型、用时间序列分析模型、用面板数据模型,用这些传统的计量模型能够进行回归分析的指标,使得传统社会学定量分析跟完全使用计算社会方法譬如机器学习、社会网分析来做或多主体仿真建模等等,在这两者之间形成一个过渡的领域,我觉得这个过渡的领域对现在当代社会学特别是定量社会学的发展有非常重要的意义。
三
大数量重启宏观定量社会分析实例1:时间序列分析
下面很快举几个简单的案例,为什么这么讲?
特别刚才罗教讲老师讲到,他作为一个前辈学人也看到,从国内的发表来看,中国社会学者对大数据使用还停留在描述阶段,比较少直接用大数据进行分析。我们团队利用刚才我讲到的宏观定量社会学的方法,从大数据中提取出可以用传统的计量模型分析的指标,然后进行有意义、有理论价值的、有理论秩序的社会学的分析。主要发表在一些以英语为主的期刊上,也是让我们中国学者当代的大数据研究、计算社会学研究走向了世界。
我举几个例子:第一个,我们发表在Social science research上的,美国100年来老百姓阶层意识的研究。如图:
这个研究的出发点很简单,因为前年是马克思诞辰200周年。马克思当时提出的阶层意识的理论,他当时观察的对象是什么呢?是19世纪英国跟德国。但是这样宏大的理论能不能同样解释20世纪发达的美国呢?甚至在21世纪能不能解释呢?
譬如我们想分析是不是在美国100年以来,譬如从1900年到2000年,在100年里面美国人的阶级意识跟美国全社会的基尼系数收入不平等是有关的。拿到美国社会不平等的数据比较好拿,比如100年来美国社会基尼数据可以拿到。
但是100年以来美国社会的阶级意识很难去做社会调查,因为好多人已经死掉了,你现在到美国去做调查不可能拿到1920年、1930年那些人的(数据),对他们进行分析。我们怎么办?我们比如利用谷歌ngram viewer很好的一个文化大数据这样的数据库,如上图所示我们提取大量关于“阶层”、“阶级”这样的词汇,如下表:
利用他们在书中,这些词汇在书里面出现的频率,来代表美国社会公众对阶层这样一个现象的关注度。如下图所示。为什么可以这么做?因为书籍是承载人类几乎全部知识思想的一个重要载体。
所以我们这样来分析(如下两图的方法)。
然后把这样的指数用统计方法,用统计方法比如压缩成一条100年以来美国社会的阶级关注度,譬如下图上看到这条红线然后我们进行分析。
类似的,我们对自杀效应,自杀中有一个著名的维特效应,名人自杀了你去模仿自杀。如下图:
同样以美国社会为例,分析它的100年里面,美国社会书籍里流传的自杀是不是跟它真实的自杀有关呢?我们同样采取这种大数据的方法。我们从书籍大数据中提取出人们100年以来、50年以来这样一个宏观的社会意识,这种是无法用传统的问卷调查来获得的指标,然后把它放到传统的标准的计量模型,比如时间序列模型里去进行分析(如下3图),这是我讲的第一个方面。
四
大数量重启宏观定量社会分析实例2:面板数据分析
第二个,面板数据的分析。
有了刚才我讲到的,比如做时间序列可以把它拓展,从国家层面拓展到州层面、省份层面。
比如我们社会学家做了经济、金融领域的研究,我们来研究全球对中国各个省域的投资跟什么有关。经济学家做了大量研究,他们研究的解释变量都是经济指标,譬如产业积聚度、譬如劳动力成本、教育水平等等,但我们关心的是什么?我们认为在两者相同的情况下,因为投资是一种风险性的行为,所以一个地域、一个城市、一个省份在国际上的知名度被提到的程度跟投资是有关的。所以我们同样用类似的数据,为中国每个省份构建20年的面板数据模型同样进行分析。我们的方法还是从海量大数据中为中国每个省份提取出他在国际上知名度的指标,然后把这些指标用我们传统计量经济学家、定量社会学家所熟知的面板模型,比如动态面板模型、双态固定模型等等来做,这样分析文化的因素对经济行为这样的一个影响。第二个方面是用面板数据。如下面4张图所示。
大数据还能提供什么呢?
五
大数量重启宏观定量社会分析实例3:网络结构数据
还有一个能够提供给我们做网络数据。我也举一个例子,我们知道城市跟城市之间、地域跟地域之间有人流、物流。如下图:
在信息社会我们很关心地域之间信息流。我们关心什么现象?譬如我请在座老师、专家想一想,两个省,上海和安徽。上海人搜“安徽”多还是安徽人搜“上海”多呢?我们想想很可能会想到安徽搜“上海”多。因为可能安徽搜“上海”除了到上海去旅游可能还会涉及到就业、上大学等等。因为上海流动人口中安徽人已经占多1/3了。我可以在信息空间里用上海搜“安徽”跟用安徽搜“上海”两个指标相乘,构建起它们省域之间文化的吸引力,信息流空间的吸引力。当然“吸引力”这个指标就像万有引力一样还不够有趣。我关心的是上海跟安徽之间相互搜索的一种差距,譬如拿安徽搜“上海”,除以上海搜“安徽”这个数据一定是大于1的,但这个数据代表什么呢?代表着是不是在互联网信息流空间里面,上海人文化上信息中的自恋、内卷化等等,或者他对安徽不太关心,但安徽很关心上海。这样我们可以提出相应的理论、概念,提炼出概念、提炼出新的理论,来对社会文化现象进行研究。
我们做了有趣的分析,我们看到这张图把每个省域之间的互动,在互联网上,在百度上相互检索的互动把它放在一起,连起来。
如上图,哪个线越粗就是哪个之间互动越强。结果发现哪两个省域行政单位互动最强呢?北京跟河北。
上图大家看到鼠标动的这根线,所以大家能够想象为什么是这样,北京跟河北之间的吸引力是最强的,你关心我、我也关心你。
我刚才讲最重要的文化上的内卷和穿透,上海对安徽的穿透体现在什么地方?我们也做了分析,把每个省相互两两搜索的这种差距、这种距离,我们也做了分析。如下图所示:
如上图,我们发现什么呢?我们发现省与省之间相互检索差距最大的是哪两个省份?是北京跟天津。这意味着北京人在互联网上可能对天津不太关注的,不太搜天津。但是天津人对北京是高度的关注,在搜索里面大量地搜索到了北京。
然后我们为每个省份都构建起这样的指标,然后我们再进行社会经济分析,从机制角度再建立起传统的计量模型,我们来分析这样内卷度、穿透力、吸引力也好,跟省份的人均收入、城镇居民可支配收入还是人均GDP有关,还是跟平均教育程度有关等等。如下图所示。
我们这样还是用同样的方法,从互联网搜索大数据里面提取出、构建出有社会学意义的指标,然后再回到传统的计量模型里面来做,同样也是在传统定量社会学分析跟完全意义上的,我们通行的用全新范式做的计算社会学中间,构建起这样一个过渡的领域。这样的领域叫做宏观定量社会学分析,它既是对传统标准定量社会学分析的补充,也是计算社会学发展是一个重要的领域,也是一个发展重要的阶段。
我想今天我利用15分钟时间就汇报到这里。谢谢大家!
(本文根据陈云松教授在论坛主题报告的录音整理而成)
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!