投稿问答最小化  关闭

万维书刊APP下载

序列分析:前世、今生与未来|社论前沿

2022/9/20 10:02:15  阅读:159 发布者:

编者按:本期推送的文章介绍了序列分析在社会科学领域中的发展过程。文章强调了安德鲁·阿伯特对于发展序列分析的重要贡献,介绍了序列分析的诸多方法进展,反思了序列分析的未来发展方向。

这是社论前沿第S3166次推送

微信号:shelunqianyan

01引言

在过去二十多年,序列分析在社会科学领域,特别是生命历程研究中,涌现出了大量成功的应用型研究。根据AbbottTsay (2000)的综述,典型的序列分析包括三个步骤:将叙事或过程编码成序列,测量不同序列之间的相异性(pairwise dissimilarities),以及进行某些形式的数据降维,比如聚类分析。在比较不同序列时,有三个重要的方面,包括状态的排序(sequencing)、状态的发生时刻(timing),以及状态的持续周期(duration)。下图展现了五个不同的工作状态序列。

     1: 五个不同的工作状态序列

     本文讨论了1980年以降序列分析的诞生,由安德鲁·阿伯特发展出来的序列分析所处的历史背景以及一些关键的早期研究。接着,文章进一步介绍了序列分析在方法和技术方面的发展。在最后一部分,作者讨论了序列分析的未来方向,包括序列分析如何助力理论构建,以及哪些理论路径有助于理解序列分析所揭示的时间性动态。

02序列分析的诞生和童年阶段1980年代和1990年代的序列研究

在这一阶段,主要有两类序列分析研究:一类是理论和概念性研究,另一类则是应用型研究。芝加哥大学的社会学家安德鲁·阿伯特(Andrew Abbott)是首位将序列分析引入社会科学的学者,发表了一系列改编和应用序列分析的研究论文。在此期间,也有无数应用型研究讨论了许多有趣的研究问题。比如Abbott Hrycak (1990) 使用最优匹配(Optimal MatchingOM)分析了18世纪德国音乐家的职业。

阿伯特和序列分析

在序列分析的早期历史中,有一个学者十分突出,即安德鲁·阿伯特。因为没有他的贡献,社会科学就可能不会有序列分析这种方法。阿伯特对于历史和过程尤其感兴趣。他也受到了很多社会学大家的影响,比如詹姆斯·科尔曼、奥蒂斯·邓肯、里奥·古德曼、罗伯特·豪斯、哈里森·怀特等。阿伯特的兴趣并不仅限于社会学,他也在历史杂志上发文章,在社会科学历史协会中也很活跃。他的主要灵感来自于SankoffKruskal (1983)的一本跨学科专著,其中有一章讨论了基因序列。在个人计算机出现后,阿伯特编写了他的最优匹配软件。

03序列分析的青少年期和成年阶段可视化

在序列分析的青少年期,序列可视化占据了一个重要的位置。序列可视化需要呈现三种类别维度;即观测单元、时间点,以及状态。因此,可视化通常希望强调序列的三方面特征,即顺序、状态的时刻和持续周期。不同个体的序列通常由叠加的线条构成,而且是从左向右排列。

经典的可视化方案是序列索引图(sequence index plot)。其中,每一个个体序列都是一个水平的线,不同的颜色表示不同的状态,并且从左向右排列。其他的可视化方法则试图呈现序列信息,比如相对频率序列图(relative frequency sequence plots)。

由于序列索引图有时展现了太多的观测值,因此也常被诟病。如今,序列索引图通常只展示一部分的样本序列。下图展示了三种不同的序列图,最上面是序列索引图,中间是状态比例图,或状态分布图,最下面的线条是模态图。

     2: 三种不同的可视化方案

由于上述三类图可能复杂且耗时,研究者也发明了其他的可视化策略,比如加权的代表性序列索引图等。

测量轨迹复杂性

生命历程轨迹可能十分复杂。对此,学者们提出了一些测量复杂些的方法。Brzinsky-Fay (2007)提出了不稳定性和整合能力两个指标。ElzingaLiefbroer (2007)则提出了紊乱性(turbulence)指标,来研究家庭生命历程的去标准化。序列的复杂性指标通常也是轨迹稳定性的一种指标。然而,我们并不清楚复杂性对于生命历程轨迹而言到底是积极的,还是消极的。为了区分积极和消极的序列,还有必要考虑所分析的序列状态的特性。

相异性指标

序列的相异性(距离)指标,测量了两个个体在多大程度上经历了不同的人生轨迹。在阿伯特的推动下,最优匹配成了分析序列距离最常用的方法。根据这种方法,如果两个序列都有大量相同的子序列,它们就会被看作是相似的。最优匹配也遭到了许多批评。因此,一些学者提出了新的距离测量方法。

相异性的组间分析

有时候,学者的兴趣在于不同社会群体之间的差异,比如性别、种族、国籍、社会阶层等。在这方面,Studer(2011)  提出了一种广义的方差分析策略,而LiaoFasang (2021)提出了一种基于贝叶斯信息准则(Bayesian information criterion)和似然比检验(likelihood ratio test)的方法。

轨迹的聚类分析

聚类分析的目的在于将序列划分成不同的潜在组或类别,使得组内成员之间尽可能同质化,而组间的差异尽可能最大。在序列分析中,基于序列相异性的分层算法,比如瓦尔德(Ward)算法通常用于聚类分析。此外,也可以使用围绕中心点的划分算法,k-means的一种拓展,来进行聚类分析。

通过聚类分析获得的序列类型(typology)有助于识别那些最为相关和典型的时间性模式。聚类分析是一种非监督的方法,因此,研究者需要仔细评估聚类的结果。在评估聚类结果的质量时,研究者可以关注组内同质性和组间区分度。一个好的类型应该具备良好的可解释性,以及理论合理性。在上述聚类方法之外,也有学者使用模糊聚类策略(fuzzy clustering),来区分核心序列和边缘序列。

多领域/多渠道分析

在最开始,序列分析聚焦于单一领域的过程。社会科学往往会关注跨越多个领域的轨迹。因此,并行序列分析(joint/multi-channel SA)关注每个人的多重序列,比如工作、家庭以及住房生涯等。而且,多重序列与研究二元/多元序列有关。

对于多重序列,第一种路径是构建整合性的领域,即将同一时期中不同领域的状态结合起来。最流行的策略则是将不同领域的状态转换成本结合起来。

分析二元/多元序列

在生命历程研究中,二元序列分析通常用于比较家庭成员之间的轨迹,比如兄弟姐妹、父母和孩子、或者伴侣。比如一个研究者可以分析父母-孩子的家庭生活轨迹。

Liao2021)总结了三种分析二元序列的方法,包括多渠道序列分析、网格序列分析、平均序列相似性,并且提出了第四种策略。这种新方法将二元序列与随机生成的二元序列进行比较,以识别二元、甚至多元序列成员在状态发生时刻、持续周期以及顺序等方面上的相似性。

序列的马尔可夫分析

Abbott (1995)区分了两种分析序列的策略,一种是将整个序列视为一个整体,另一种则是将其看作是一步接一步的过程。在后一个策略中,后续状态的概率可以通过前面已经出现的状态进行预测。马尔可夫模型可以用以分析序列中不同状态之间的转换。

对于序列数据,马尔可夫模型还可以使用隐藏的或潜在的变量。纳入时间不变量的马尔可夫模型也被称作为混合马尔可夫模型,它可以用于进行序列聚类。纳入随时间变化的潜变量的马尔可夫模型是隐马尔可夫模型,可以分析潜在过程如何影响可观测的状态。整合混合马尔可夫模型与隐马尔可夫模型,研究者可以使用混合的隐马尔可夫模型,能够同时纳入一个时间变量和一个时间不变量。

总之,对于序列数据,序列分析往往将其看作是一个整体的单元,而马尔可夫模型则会考虑序列中的转换过程及其概率。

序列分析和生命历程研究

序列分析的成功与生命历程研究密切相关。第一,在分析生命历程时,类别状态的轨迹具有理论重要性。其次,生命历程研究有着使用跨学科方法的传统。对于探究生命历程研究的核心原则方面,序列分析可谓硕果累累。使用序列分析的研究讨论了家庭生活轨迹对于收入的长期影响,而且还探究了生命历程中的累积优势/劣势过程。

有关时间利用数据的序列分析以及个体生命历程结构的序列分析都有助于推动对于生命历程能动性的理解。序列分析能够用于分析人们之间的相互依赖性,以及不同生命历程领域间的相互勾连。

总之,在生命历程研究中,序列分析有助于理解生命历程内部的异质性,以及生命历程之间的异质性。

序列网络分析

一些序列研究者使用社会网络分析框架来分析序列。在序列网络路径中,序列要素(状态)构成了网络的节点。根据时间上的前后关联,研究者可以建构出一个序列网络。

这一策略可以用于分析复杂的时间数据。网络分析程序可以用来绘制和可视化不同的序列以及行动者。序列网络路径使得序列概念被注入到社会网络分析中来。

序列分析和其他社会科学研究

序列分析有助于理解不同类型的过程如何随着时间发生以及为何出现了不同的模式。这一方法可以被进一步拓展到社会学、政治科学、空间研究、调查方法论等不同的学科中。

序列分析的软件

     在序列分析的早期,阿伯特开发了一个最优匹配程序。最优匹配也可以使用TDASequenceCHESAStataR等工具。

04序列分析的未来序列分析对于理论发展的潜力

序列分析经常被看作是一种欠缺理论的方法。但是如今,它在检验研究假设和理论观点方面(特别是生命历程以及家庭人口学方面)发挥了重要作用。

新近的研究表明序列分析有助于理解国家情境如何型塑了工作和家庭生活,以及生命历程模式如何与经济回报相关联。特别的,序列分析能够检验累积劣势过程。

序列分析也有益于推动有关过程的速度、顺序和发生时刻的理论发展。大多数序列分析关注个体层面。一些研究关注了夫妻的生命轨迹。对于宏观的结构性过程,序列分析也可以用来分析某类政府、社会政策和经济改革的引入过程。

至于因果机制,很多应用型研究都强调自己的结果是描述性的。但是,新近的研究表明,序列分许能够帮助揭示因果过程。而且,通过改变某一因果链条种事件的顺序和序列,研究者也能使用序列分析将经验证据和理论观点联系起来。

序列分析:正在发展的方法整合序列分析与其他方法

序列分析可以和其他许多方法结合起来使用,但是仍有一些问题尚未解决。第一,应用型研究强调使用同样长度的序列,第二,将聚类的结果作为自变量时,很难将随时间变化的协变量纳入进来,第三,难以建立因果关系。新近方法通过结合序列分析和事件历史分析解决了部分问题,比如纳入时间可变量。也有研究将序列分析和匹配方法结合起来,使得研究者能够进行因果估计。

验证聚类结果

在统计的意义上,我们很难检验聚类算法的可靠性。聚类质量指标通过包括组内同质性和组间异质性指标,能够大致指导研究者选择聚类分析的最优组数。最近。有学者应用了重抽样技术来检验聚类结果的质量。

序列分析:有待发展的方法缺失值和不同长度的序列

     首先,序列中存在大量缺失值。在序列分析中,有必要区分那些无法收集的资料,比如无应答,与不存在的资料。在某些状态上的缺失值会导致序列中的空缺,因此可以使用插补的方法进行补齐。而且,有一些序列分析方法能应对不同长度的序列。

大数据序列

     对于几千个序列,序列分析能够轻易应对。但是,一旦序列的数量超过了20000,由于存储和计算时间的限制,不同序列见的相异性计算就可能难以实现。因此,一个可行的办法是对序列进行抽样,另一个策略则是采用并行处理运算。

序列生成模型与合成生命历程

     在本质上,序列分析是探索性的。在整体上,序列被看作是静态的对象。诸如马尔可夫模型等概率模型则可以用来分析过程。面板数据通常只涵盖了生命历程的一小部分,通过从面板数据中合成完整的轨迹有助于研究完整的生命轨迹。比如,完整的生命历程可以通过合并多个年龄群体的资料实现。

状态与时间粒度

     研究者应该考虑时间和状态的颗粒度。比如在分析职业轨迹时,我们通常使用国际标准职业分类,而不是具体的职业类型。同样的,至于使用月度数据和年度数据的结果有什么差别,也是一个问题。而且,在分析序列时,不同状态的总数也应尽量减少。

05小结

本文对序列分析的历史和发展进行了回顾。尽管这些回顾较为全面(comprehensive),但是这些总结并不完整(complete)。在最后一部分中,作者指出,序列分析还有待进一步发展。作者相信,在不远的未来,学者们能够推动序列分析进入一个较为成熟的阶段。

转自:“社论前沿”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com