李强 | 大数据社会科学是社会科学研究范式转换的产物
2023/12/27 10:06:21 阅读:46 发布者:
本文来源于公众号:数据与治理
简介
著名社会学家,清华大学文科资深教授、社会科学学院原院长李强教授,因病医治无效,于2023年12月12日14时19分在北京逝世,享年73岁。李强教授生前曾担任清华大学社会学系主任、人文社会科学学院院长、社会科学学院院长等职,同时对数据治理研究中心的工作也一直予以高度关注和支持。
李强教授曾为清华大学学报(哲学社会科学版)2015年第3期专题研究“大数据社会科学专栏”撰写题为《大数据社会科学的兴起》的主持人语。自大数据社会科学发展之初,李强教授便对这一新范式提出了颇具前瞻性的见解,其观点至今仍具有重要的借鉴意义。
在社会科学发展史上,物质生产形态的变化、科学技术条件的进步及至知识创新范式的转换,不仅会对人类社会的生活样式和组织形式产生深刻的影响,而且会对以社会生活为研究对象的社会科学之核心假设、研究范式和学术理路产生重大的影响,且由此可能形构出社会科学知识阶段性发展乃至突生性变迁的内在特性及其表象特征。信息化社会、网络化时代和数码技术的广泛应用,对当代人类社会已经留下了至深且巨的烙印。2012年,《纽约时报》刊文宣告“大数据时代已经到来”,与之相关,当代社会科学的发展亦进入了以“大数据”为特征的新阶段。
学界公认的是,“大数据”指需要新处理模式才能确保更强的决策力、洞察力和流程优化力的海量、高速增长和多样化的信息财富(Gartner,2012)。大数据所具有的规模容量超大、类型种属多样以及流动速度快捷这样三大特征,不仅为传统的数据管理和分析模式带来了重大的挑战,也极大地推动了机器学习和云计算等大数据分析学方法的发展。既是为了更好地理解大数据时代人类社会生活的变迁,同时更受到大数据时代科学技术条件的驱动,大数据分析学方法与社会科学特定领域相互结合且相互融通的大数据社会科学应运而生。
更确切地说,大数据时代的来临在相当程度上改造了社会科学的研究对象和研究方法。一方面,大数据改造着人类社会的组织和行为方式,将人类从事经济、社会和政治活动的场域扩展到虚拟空间,重构着政府、企业、社会组织和个体等行为主体的行为模式及其关系。以互联网为载体,大数据时代的信息量得到了质的增长,加之互联网的交互性极强,突破了空间和时间限制,各个行为体的观点、情绪、诉求和行为得以在虚拟空间充分表达、急剧碰撞且飞速传播,并最终影响现实中的社会生活。另一方面,大数据快速地更新着社会科学研究的工具栏。Decker(2014)将大数据视为一种“颠覆性创新”,认为它带来了“数据的民主化”(democratization of data),为研究者利用海量数据即时性地分析社会变迁提供了可能。大数据提供了分析非结构化和半结构化数据的各种技术方法,有效地将数据挖掘、机器学习、云计算与社会科学研究紧密结合起来。面对网络空间海量数据的开放和实时更新,国际社会越来越多地将基于大数据的数据挖掘和预测分析应用于全球治理和国家治理。
图灵奖得主J. Greg(2010)认为,大数据时代将形成数据密集型科学研究的“第四范式(the Fourth Paradigm)”。大数据时代的科学研究将不再需要模型和假设,而是利用超级计算能力直接分析海量数据,发现相关关系即可获得新知识。就此而论,大数据正在引发政治学、经济学、社会学等社会科学主流学科的一场方法论革命(刘涛雄,2015)。2009年,Lazer等在《科学》发文提出“计算社会科学(Computational Social Science)”的构想;他们认为,计算社会科学正在兴起,人们将在前所未有的深度和广度上采集和利用数据为社会科学研究服务。Chang(2013)探讨了大数据带来的社会科学范式的转换:大数据带来了更便捷的数据收集技术,社会科学与计算科学、网络科学相结合,正在向“计算社会科学”和“网络社会科学”的方向转变。因而,陈吉宁校长提出,大数据将颠覆人们的传统认知,促发思维模式、行为方式、研究范式的深刻变化,推动基础理论和学术思想的重构乃至社会的重大变革(陈吉宁,2014)。
大数据社会科学即是大数据时代社会科学与计算科学、网络科学相结合而推动社会科学研究范式转换的产物。在大数据推动社会科学范式转换的过程中,技术进步、学科间融合、新数据分析技术的应用、新的商业和组织环境都在加速推动这种范式转换。概括言之,大数据社会科学具有以下基本特征:一、大数据方法可以廉价、快速、及时地获取更多更全数据,甚至是总体而不是抽样数据;二、大数据方法使得历史文本、社交媒体、多媒体、网络轨迹、网络碎片等非结构化数据成为研究对象;三、机器学习、自然语言处理、图像识别、语音识别等数据挖掘和分析技术被广泛引入社会科学研究,推动了自动文本分析、社会网络分析和可视化技术的飞速发展;四、大数据社会科学切实推动了社会科学与计算科学、信息科学和语言学的跨学科研究;五、借助大数据技术与互联网的无缝对接,大数据社会科学的研究成果可以实时、直观、平民化地传播和普及,从而强化社会科学知识对现实社会的直接影响(孟天广、郭凤林,2015)。然而,作为一种新生事物,必须认识到大数据社会科学仍然在数据测量、探索因果关系、数据隐私与开放等方面也面临着新的挑战。因此,尝试性的课题研究,更具有探索学术思路、尝试学术方法的重要意义和价值。
正是为了顺应大数据时代国家治理的客观要求和科学研究的发展,清华大学于2014年4月26日率先成立了数据科学研究院。清华社会科学学院更积极地致力于将大数据方法应用于社会科学研究,本期“大数据社会科学专栏”所推出的三篇研究论文即是这一努力的最新结果。
其中,孟天广和李锋的《网络空间的政治互动:公民诉求与政府回应性》从虚拟空间的政府与社会关系入手,通过对全国性网络问政平台21万条公民与政府行为记录的大数据分析,发现近年来公民通过网络向政府表达诉求的趋势有大幅度的增长,而就业、农村发展、贪腐、城市建设类议题最受关注。面对日益增长的网络参政,地方政府强化了政府回应性建设,然而,政府对公民诉求的有效回应仍然受制于时空因素、议题归属和诉求表达方式的影响。
邵梓捷、张小劲和孟天广的《政治传播视角下<新闻联播>的宣传模式分析》重点考察了中国中央电视台《新闻联播》所承担的政治传播功能。通过对官方权威新闻节目的内容分析,他们发现,2003-2013年期间,“国家”是新闻联播的叙事主体,行政执行与决策权威是主要的传播内容,经济建设则是宣传主调;自2010年起,国际事务的报道又有大幅跃升;宣传对象注重党政机关和领导层,国际事务报道注重大国间双边关系,国内报道则注重经济发达地区和少数民族地区等。
苏毓淞和姚雨凌的《大数据信息采集及其偏差补救方法:以甜党和咸党的口味地盘之争为例》从一个有趣的话题出发,讨论了大数据时代舆情研究者对非随机抽样数据的偏差补救。大数据虽然为舆情研究者提供了海量数据,但是,其数据并非来自随机抽样从而缺乏代表性;以粽子口味的甜党和咸党争论为例,苏姚两位利用多层次回归和事后加权方法调整了从互联网获取的数据,从而得到了更合理的舆情估计值,并且认为这一方法可以推广应用到相关舆情研究的其他课题之中。
上述三文从不同的主题和方法尝试了大数据社会科学的研究,更在一定程度上展现了大数据社会科学未来发展的潜能与空间。我们期待着,随着相关研究的进一步展开,大数据社会科学将进入更具实质性意义的发展阶段。
转自:“再建巴别塔”微信公众号
如有侵权,请联系本站删除!