投稿问答最小化  关闭

主观变量解释主观变量:方法论辨析

2022/6/27 11:28:26  阅读:205 发布者:


【摘 要】社会学经验研究经常会需要处理诸如态度、感受、偏好这样的主观变量,无论从理论上还是方法上,对特定主观变量的理解往往会涉及另外一个主观变量。尽管如此,在具体的研究实践中,社会学者往往对“主观解释主观”的分析进路持有相当程度的保留态度,从而尽可能地采用客观变量来解释主观变量,或者探究主观变量对于客观变量的影响。“主观解释主观”的分析进路究竟有什么方法论上的“缺陷”?更为重要的是,采用什么手段可以尽可能避免这些“缺陷”以拓宽研究者的经验解释能力?这些问题到目前为止都还缺乏系统研究。在此背景下,本文考察了“主观解释主观”的分析进路所存在的混淆偏误问题,并从理论论辩、变量测量和数据分析三个方面讨论了一系列的应对策略。针对每一个应对策略,本文展示了经验实例,并对该策略的优缺点和适用情况进行了剖析和对比。此外,本文也具体分析了诸如因果关系方向、判断混淆偏误的敏感性检验、测量误差等未尽议题。本文希望通过这些讨论能增强社会学解释路径的多样性,促进社会学与其他学科(例如心理学、政治学等)的交流与互鉴。


01. 引言


社会学经验研究往往围绕着特定变量之间的关系展开(Blumer,1956)。在这些变量中,有一些直接反映个体的主观特性,可称之为“主观变量”。与之相对比,另外一些变量所反映的是个体的客观特征,可称为 “客观变量”。常见的主观变量有幸福感、信任水平、公平感、选择偏好等,常见的客观变量有性别、年龄、教育水平、身高、体重等。从本质上讲,主观变量与个体的心理特质有关,客观变量则与个体的物理特性有关。在已有的社会学研究中,学者们会利用客观变量来解释主观变量,比如,在探索“斯特林悖论”时,分析收入水平如何影响幸福感(李路路、石磊,2017);或者考察特定主观变量对于客观社会环境的影响,比如,对于社会资源分配方式的偏好会影响社会福利政策的制定与效果(郑功成,2009)。除了这些“主观变量—客观变量”的搭配,一项研究的自变量和因变量也有可能都是主观变量。但对于这类“主观解释主观”的研究,社会学经验研究者往往会对相应的分析结果持有相当程度的保留与怀疑(Dallinger,2010;Janmaat,2013)。一个常见的质疑是,由于二者均为主观变量,它们都有可能和个体的某种潜在的心理特质相关联。这种共同的关联性决定了主观变量之间的关系很有可能是虚假的。借用经济学的一个术语说,就是两个主观变量的关系是内生的。由于这种质疑,相较于“主观—客观”的变量组合,社会学的文献中很少见到利用主观变量解释主观变量的研究,在一些特别注重客观变量的分支方向(例如,社会分层与流动、人口社会学等)中更是如此。


在此背景下,一个很重要的方法论问题是,社会学经验研究是否应当摒弃“主观解释主观”的分析进路呢?对于这一问题,笔者认为答案应当是否定的,主要是基于以下两个方面的理由。从宏观社会环境来看,伴随着中国社会过去几十年的快速物质增长,人们日渐注重主观精神层面上的需求,越来越多具有社会学理论价值的变量也逐渐转向主观(例如,对于资源分配的偏好、收入公平感等),因此,对主观变量的细致考察(包括利用其他主观变量来进行社会学经验分析)应当是当下中国社会学研究很重要的一个研究方向。从学理逻辑上看,单纯利用客观变量来解释人们的主观感受有其局限性。很多客观变量看似具有解释力,但可能恰恰是因为有其他主观变量在其中发挥作用。比如,客观的社会不平等程度通常被认为是降低个人对他人信任水平的一个重要的客观变量(Uslaner,2002;Bjφrnskov,2008)。但是,一个社会的不平等状况之所以能够影响个体对他人的信任水平,很重要的一个前提条件是,个体建立起对社会不平等状况的某种认知和评价。基于这些认知和评价,人们进而对社会成员是否可信做出判断(Norton and Ariely,2011;Cruces,Perez-Truglia and Tetaz,2013;Chambers,Swan and Heesacker,2014)。在这个例子中,个体对社会不平等状况的主观评价起到了连接客观社会不平等状况和对他人的信任程度的作用。正是由于主观变量的“中介”作用,在面对同样的“客观”社会不平等状况(例如同样的社会环境)时,人们完全可能产生截然不同的主观感受(例如,有的认为社会不平等水平已经很严重,需要进行干预,有的则认为社会不平等水平还不足,以致于难以鼓励人们努力工作),这些主观认知与感受的异质性带来了不同的信任评判(Hu,2017)。从这个例子可以看出,纯粹基于客观变量去解释主观状况而忽视其中潜在的“主观—主观”关联只是描述了整个因果链条的一部分,并不完整。研究者唯有引入个体的主观不公平感,才能更为全面地理解个体主观信任水平的影响因素。与这个例子类似的社会学研究主题比比皆是。比如,个体的婚姻择偶倾向如何影响个体的婚姻满意度(Hu and Qian,2015),对于社会资源分配公平的价值评判如何影响个体对于弱势群体(如老年人)的态度(Hu and Chen,2019),对于传统文化观念的接纳如何影响人们对于政府的信任(Shi,2001),诸如此类,不胜枚举。从这些例子可以看出,利用主观变量来解释主观变量理应是一个重要的社会学经验分析进路,具有其自身的理论和现实价值,不应冒然放弃。


综上所述,我们有必要系统审视“主观解释主观”思路的基本方法论问题。更为重要的是,进一步辨析如何在实践和操作层面尽可能的应对这些方法论问题,以保证主观变量之间的关联能够代表某种非虚假性的、具有实质意义的关系,正是本文的目标所在。本文会从社会科学方法论的角度,对主观变量的内涵进行解读,以此为基础展示“主观解释主观”的分析进路所可能存在的混淆偏误困境。之后,本文将进一步从理论论辩、变量测量和数据分析三个角度讨论如何在实践层面上应对混淆偏误。最后,本文还将讨论因果关系方向、判断混淆偏误的敏感性分析、测量误差问题三个未尽的研究议题。考虑到采用主观变量解释主观变量在其他社会科学学科(例如心理学、政治学)中颇为常见,笔者也希望通过本文的澄清和讨论,进一步促进社会学和其他学科的交流和互鉴。


02. 问题的提出


在分析“主观解释主观”路径的方法论困境之前,有必要讨论一下什么变量可以称得上是主观变量。在这里,我们暂时将哲学层面对于主客观区分的思辨放下,转从社会科学经验研究的角度,讨论社会学研究中常见的主观变量所具有的共同特征:


首先,主观变量,顾名思义,涉及的通常是被研究对象“自评”或者“自报”的信息。或者说,主观变量考察的是个体自己提供的评判性信息,而不是客观行动或者环境指标。比如,自评健康看的是自己感觉是否健康,客观健康则是涉及血压、病史等外在物理性指标。其次,主观变量的取值取决于个体价值观念和外在环境的互动。由于人是社会性的动物,完全脱离社会环境的主观判断是很少见的(Baumeister,2005)。但是,主观变量之所以被称为主观变量,恰恰是因为这些变量的取值具有相当强的主观成分。比如,收入公平感的构建虽然不能完全脱离个体的实际收入,但判断收入公平与否很大程度上取决于个体判断收入合理性的参照对象,后者无疑具有比较强的主观性。第三,主观变量值得研究,在于其具有一定的社会意义。换句话说,主观变量虽然取值上有主观判断的成分,但其变动的模式不是个体化的,而是体现出某种社会性的模式,否则,对主观变量的考察就会缺乏社会学的学理价值。例如,我们对于择偶偏好感兴趣,是因为不同的历史时期或者不同群组的人们在择偶偏好上具有某种模式化特征(例如,从偏好在政府部门工作的对象转向偏好高学历的对象)(Han,2010;Hu and Qian,2016)。但是,社会学者一般不会去研究个体喜欢苹果还是橘子,因为这个问题的个体异质性非常大,缺乏社会意义上的模式性发现。最后,和客观变量相比,主观变量的测量层次相对较低,以定序或者定距居多。由于缺乏连续型变量那种具有实际意义的零值,主观变量的研究往往重在对比,看的是相对大小,以此展现出特定变量取值的实际意义。例如,某人某天的生活满意度取值为“比较满意”这一发现本身没有太多意义,只有将其和同一个体前一天的满意度取值相比,或者和其他同辈个体的平均满意度对比,才能了解所谓 “比较满意”背后的实质意义。


基于主观变量的这四个特征,一些学者会认为,如果自变量和因变量都是主观变量,它们之间的关联有可能因为混淆偏误而呈现虚假状态(Dallinger,2010;Janmaat,2013)。这里的混淆偏误不是传统意义上因为遗漏了某些外在变量(例如,在分析大学教育的经济回报时,没有考虑户籍变量)而造成的选择性误差,而是因为自变量和因变量具有共同的潜在心理特质基础(胡安宁,2012)。换句话说,自变量和因变量都是主观“自报”的。那么,一个合理的怀疑是,该个体的某些独特心理特质有可能同时决定了两个主观变量的取值大小,从而带来混淆偏误。从某种意义上讲,这种怀疑也比较符合我们的常识经验。例如,某些人性格多疑(心理特质),更容易倾向于不信任他人(自变量),同时,由于这种多疑的性格,该个体也不太容易满足现有的生活状态,从而具有较低的生活满意度(因变量)。此时,将很多个体聚合在一起,我们会发现,对他人的信任与生活满意度之间会呈现某种正向的关联(即变动方向一致)。但是,这种正向关联缺乏实质性基础,它们之所以“显得”有关联,是因为它们共同被个体的多疑性格这一心理特质所决定。故而信任度和幸福感之间的关联有可能是虚假的。这种混淆偏误可以用图1表示。



在图1中,由于潜在的心理特质共同影响自变量和因变量这两个主观变量,我们所观测到的自变量对因变量的影响就有可能是虚假相关。需要再次强调的是,这是一种非常特殊的混淆偏误。其涉及的不是传统意义上变量的遗漏、测量谬误或者被研究个体的主观选择,而是涉及被观测对象本身内在的某种特质。换句话说,这不是变量问题,而是被研究对象和变量之间的互动问题。


虽然混淆偏误的确是“主观解释主观”过程中一个非常现实的方法论困境,但并不意味着我们应当完全摒弃这一解释社会现象的分析进路。实际上,现有研究已经积累了一些经验分析策略,以尽可能地应对和削弱混淆偏误的影响。在下面的讨论中,笔者基于现有文献,主要讨论三种应对“主观解释主观”选择偏误的策略,分别是理论论辩、变量测量和数据分析。


03. 基于理论论辩的策略


基于理论论辩的策略的核心逻辑在于,通过说理,利用逻辑的力量降低人们对于混淆偏误的怀疑。从本质而言,基于理论论辩的策略在于说明,自变量和因变量这两个主观变量是由不同的心理特质产生的。因此,它们不会受制于同一个心理特质从而产生混淆偏误。如果采用图示的方法,理论论辩方式可以用图2表示。



如图2所示,理论论辩之所以能够应对混淆偏误,是因为这一策略用理论论辩在更深的心理特质的层面上区分了自变量和因变量。只要这两个潜在的心理特质彼此独立,作为它们外在表现的自变量和因变量就不会因为混淆作用而产生虚假关联。在实际操作过程中,直接从理论上论断自变量和因变量来自不同的心理特质往往有很大难度,因此,研究者往往“退而求其次”,采用一些妥协的分析策略。比如,如果能够证明两个主观变量之间具有不同的变化难易程度,或者二者反映了不同层次的观念或者价值,那么,我们就能够近似地认为,两个主观变量不是因为同样的心理机制发展出来的。这种分析思路本质上是一种“反证”的论辩策略,其基本假设是,如果自变量和因变量都是由同一个心理特质产生,它们就应当具有相似的基本特性(例如,面对社会环境变化时具有类似的敏感度和变化属性)。如果它们的基本特性不同,我们便可以倒推回去,认为二者产生于不同的心理特质。


我们可以通过一个具体实例来说明如何通过理论论辩的方式应对“主观解释主观”过程中的混淆偏误。众所周知,与其他国家的居民相比,中国居民对于中央政府具有很高的信任度。针对这一特征,制度性的解释路径往往强调政府的绩效表现、宣传手段等因素的作用,但政治学家史天健(Shi,2001)是从文化的角度来思考这个问题。具体来讲,史天健将这种对中央政府的高信任归因于中国人对传统权威文化的认同与接受。很明显,这里的自变量(对权威文化的接受)和因变量(对中央政府的信任)都是主观变量,因此,从文化的角度来解释政府信任势必面临上文所说的“主观解释主观”的混淆偏误。史天健本人也意识到了这一点,他因此论述道:“当我们用文化作为自变量来解释人们的行为时,各种心理取向之间的概念区分可能并非必要。但是如果我们想探索人们为什么对某些政治对象采取不同态度,概念上的区别就变得至关重要”(Shi,2001:402)。那么,史天健是如何进行“概念上的区别”的呢?在这里,我们可以直接引用史天健(Shi,2001:402)的讨论:


在政治文化研究中,价值观与态度应该在概念上加以区分。首先,他们具有不同的心理倾向,执行不同的功能。价值观和规范是内部标准,规定了行为者的正确行为,但态度指的是对特定对象的评价或确认。其次,这些概念的来源和形成过程是不同的。价值观和规范是通过早期社会化获得的,但态度是由一生中早期获得的价值观和规范与政治和/或社会行为者的行为之间的相互作用形成的。例如,一个人应该尊重他或她的父亲的规范是通过早期社会化获得的。一个人对他或她父亲的态度是由这种规范与父亲的实际行为相互作用而形成的。最重要的是,机会结构对这些概念的影响也不尽相同。由于态度部分受到外部刺激的影响,制度变化带来的机会结构转变很容易改变这种取向。然而,早期社会化形成的价值观和规范在相同的情况下可能保持稳定。


可见,史天健将对传统文化的遵从定义为某种价值观,而将对政府的信任程度定义为某种态度。基于此种定义,它们之间的关系之所以不是虚假的,是因为价值观和态度代表了不同的心理特质,二者不可混为一谈。具体表现为,价值观是一种更加稳定的心理特质,而态度是更加易变的心理特质。此外,对传统价值的接纳代表了某种集体性价值,对中央政府的信任则是更加个体化的倾向。因此,在这项研究中,史天健综合运用了理论论辩的分析策略,试图说明对传统权威文化的遵从与对政府的信任之间具有某种实质性的关联。


虽然采用理论论辩的方法来处理混淆偏误不需要额外的经验性辅助信息,但这一策略也有其局限性。最直接的一点是,由于我们并未直接对数据采取任何操作,也不能够直接给读者提供任何“客观”证据,这一应对策略成功与否基本上取决于研究者的理论论辩是否能够“说服”或“打动”读者。一方面,这要求研究者具有比较高的理论功底,另一方面,这也引入了某种主观性和随意性。正因为如此,除非研究者有充分的理论依据,否则,理论论辩的应对策略并不具有广泛的适用性。


还需要指出的一点是,从经验分析的角度来看,无论是依据不同的变化程度还是依据不同的分析层次,上面介绍的间接“反证法”都不能完全消除潜在心理特质的混淆性影响。


就变量差异性变化速率而言,我们完全可以想象图3(a)这样的分析情境:自变量相比于因变量变化更为缓慢,有可能是因为有另外一个心理特质在发挥作用。例如,潜在心理特质2抵消了一部分潜在心理特质1对自变量的影响,从而让自变量和因变量具有不同的变化速率。显然,此时来源于潜在心理特质1的混淆偏误依旧存在。之所以潜在心理特质对自变量和因变量的影响力度有所差异,起作用的无非是某个我们没有考虑到的其他心理特质而已。此时,我们自然不能基于自变量和因变量具有不同的变化速率来论证不存在混淆偏误。但遗憾的是,面对主观自变量和主观因变量,我们通常难以穷尽所有潜在的相关心理特质。因此,图3(a)所描述的混淆心理特质的情境是很容易出现的,这无疑会质疑理论论辩的策略。


就分析层次差异性而言,虽然我们可以论证自变量和因变量有可能来源于不同层次的社会因素。但我们的分析资料都是在个体层次上收集到的。从这个角度来讲,无论原始概念是否来源于不同的分析层次,最终在经验层面上,所有层次的概念还是落实到个人层次上。因此,只要我们分析的对象都是个体层面上体现和测量出来的,潜在的心理特质混淆机制就不可能完全消除。如果自变量和因变量在分析层次具有差异,我们只能说,更多受宏观机制影响的主观变量有可能更少受到潜在心理特质的影响。换句话说,与宏观社会环境更加密切的联系有可能“挤压”潜在个体心理特质的作用,但这种挤压作用不足以说明混淆偏误不复存在。这实际上又回到图3(a)所描述的情境,只是这里起到“挤压”作用的不是另外一个潜在的心理特质,而是宏观的社会机制,就如图3(b)所示。


与理论论辩不同,下面要介绍的两个应对策略强调了对变量和数据的处理,其中一个侧重于对未知潜在心理特质的直接测量,另一个则强调数据收集后的统计处理。


04. 基于变量测量的策略


由于“主观解释主观”的分析进路中最主要的方法论局限是存在潜在的心理特质来混淆自变量与因变量之间的关系,那么,从变量测量和统计控制的角度来说,一个最为直观的解决办法便是直接测量这一心理特质,然后将测量变量进行控制处理(Rosenbaum,2002)。当然,这里的处理方式有很多,例如,作为回归模型的控制变量,可以将其作为为主轴进行细分。然而,心理特质的测量不是一件容易的事情,由于其复杂性和多维度性,研究者有可能需要采用量表或多次重复测试的手段来多角度衡量潜在的心理因素,然后利用降维技术(例如,主成分分析)将其综合为一个可以直接使用的个体层次上的变量(Hu,2018)。这一应对策略可以用图4表示。其中,针对潜在的心理特质,我们采用多个测量(测量1到测量n),然后利用降维的分析手段,将它们汇总为一个可以控制起来的变量。由此,自变量和因变量的净相关关系便能够估计出来了。



我们还是用一个经验实例来展示这一应对策略。大量的经验研究发现,个体对于社会一般成员的信任(即一般信任)会影响其对于政府的信任水平(Putnam,1993,2001;Newton,2001)。但是,由于一般信任和政府信任都是个体对于特定对象的“自报”信任水平,它们都属于我们这里谈到的主观变量。那么,混淆偏误会让我们怀疑,一般信任和政府信任之所以相关,是否是因为他们都源于个体的一种基本心理倾向?比如,这个人本身就是一个“倾向于信任”或者“倾向于不信任”的人。换句话说,因为某种倾向于信任(或者不信任)的心理特质,被研究对象有可能同时更加信任社会上的人,也更加信任政府,从而带来两种信任之间的“虚假”相关。


基于变量测量的策略,我们可以用针对其他对象的信任题器来测量潜在的信任心理倾向。这样做的依据在于,既然信任倾向作为一种潜在的、更深层次的心理因素影响各种不同类型的信任,我们便能够利用针对其他分析对象的信任来间接把握个体的信任倾向。因此,如果能够从针对其他对象的信任题器中抽离出信任心理倾向的测量,我们便能够控制这一心理倾向,进而考察一般信任和政府信任之间的真实(净)相关关系。通过分析中国综合社会调查2010年的数据,笔者采用对以下对象的信任题器来测量信任倾向:亲戚、朋友、同事、领导干部、生意人、同学和老乡(答案选项为1—5的李克特量表)。通过主成分的因子分析抽离并产生基本信任心理倾向的得分,我们得到如表1所示的分析结果。



利用表1的结果,我们针对每一个被研究对象估计了其信任心理倾向的得分(即因子得分)。之后,我们拟合了两个模型,一个模型是用一般信任以及一系列的控制变量来预测政府信任,另一个模型是在前一个模型的基础上加上基于因子分析产生的信任心理倾向变量。在这两个模型中,控制变量包括性别(1=“女”,0=“男”)、年龄、教育水平(1=“未受过正式教育”,2=“小学”,3=“初中”,4=“高中”,5=“专科”,6=“本科及以上”)、城乡(1=“城市”,0=“农村”)和个体年收入(做log变换)。我们感兴趣的是在增加了信任心理倾向后,一般信任的系数如何变化。为了进行系数对比,我们没有拟合次序Logistic回归,而是采用了普通最小二乘模型(Wooldridge,2010)。两个模型的系数变化如图5所示。在控制了信任倾向后,一般信任虽然依然能够和政府信任水平之间产生显著的正向关联,但系数已经从0.214下降到0.149。进一步的检验表明,这一下降是在0.001的水平上统计显著的。由此可见,一般信任对于政府信任的影响的确有一部分来自于个体的内在信任心理倾向。但是,将这一信任心理倾向控制起来以后,一般信任和政府信任之间依旧存在显著关联,这种“净”关联应当具有理论上的现实意义。也就是说,相比于没有控制因子得分的模型,控制了信任心理倾向后的“一般信任—政府信任”的关联更加不受制于潜在的混淆偏误,从而更能代表某种真实的关联。



针对变量测量的应对策略,有以下几点需要注意。首先,在获取针对个体心理特质的经验测量以后,研究者可以通过多种手段进行控制。在上面的例子中,通过因子分析产生的是一个连续型的因子得分,因此直接作为控制变量置入模型。但是,研究者也可以利用潜类别模型产生分类变量来衡量心理特质的多个类别。对于此分类潜变量,可以作为控制变量纳入模型,也可以针对不同的类别进行类别内分析然后汇总(Cochran,1968)。其次,对于潜在心理机制的直接测量需要研究者非常清楚究竟是哪一个或者哪几个心理机制造成了混淆偏误,由此才可以进一步构建它们的测量指标。无疑,这要求研究人员要有比较强的理论功底,尤其是充分掌握心理学领域的相关知识,以识别不同的混淆心理特质。最后,与第二点相关,如果存在多个潜在的混淆心理机制,那么我们就需要进行多元控制。例如,在模型中除了主效应之外,还可能有不同心理特质之间的交互效用,甚至主效应的高阶效用。此时,模型形式可能具有不确定性(胡安宁,2016)。


05. 基于数据分析的策略


通过某种手段直接测量出潜在的心理特质固然是一个非常简单、直观的策略,但在实际的研究情景中,我们很多时候恰恰缺乏明确的理论或者操作经验来告诉我们造成混淆偏误的心理特质究竟是什么,更不用说如何对其进行有效度和信度的经验测量。此时,一个替代性方案是寻找潜在心理特质的代理变量并对其进行控制。由于心理特质反映的是个体的内在特征,一个很自然的代理变量是个人在数据中的个人固定效应(例如,数据中的ID变量)(Allison,2009)。换句话说,在调查数据中,个体全部信息的唯一代表就是个人固定效应,如果把它控制起来,那些看得到或看不到的心理特质自然就会被间接控制起来了。这一思路如图6(a)所示。


但是,在一般的截面数据中,简单的个人固定效应控制并不能解决混淆偏误。原因在于,个人固定效应同时也决定了自变量和因变量的取值。当我们控制了个人固定效应之后,自变量和因变量的取值也就被固定了。此时,它们不再是“变”量,我们自然也就无法估计出二者之间的关系。一个可能的解决方案是分析历时性的数据,即允许针对特定的个人固定效应,估计自变量和因变量随时间而变化的取值及其相互关系。此时,即使仅针对某个特定的个体,我们也就能够看出主观变量之间的关联。这个思路具体可参见图6(b)。在图6(b)中,我们控制个体的个人固定效应,同时考察自变量与因变量随时间变化的趋势是否体现出某种模式化的关联。如果存在,那么这种关联便是在控制了个人固定效应的情况下发现的。由于个人固定效应是个体心理特质的代理变量,这种自变量、因变量之间的关联也就代表了控制潜在心理特质后得到的净相关,从而在一定程度上克服了混淆偏误。



我们还是以经验数据来举例,假设我们感兴趣的问题是个体对于社会整体状况的满意度如何影响个体生活的满意度。由于固定效应需要历时性数据的支撑,我们采用的是首都大学生成长追踪调查的资料。这个调查的优点在于在北京不同类型的大学中抽出大学生样本,并连续追踪五年。在首都大学生成长追踪调查中,每一年的调查都会问及被调查对象的生活满意度和对于社会整体状况的满意度。显然,这两个变量都是主观变量。如上文所述,如果仅仅关注某一个截面的数据(例如,某一年的调查资料),控制了个体的个人固定效应也就同时控制了两个变量的取值,这让后续的分析无法进行。但要分析五年的历时性数据的话,个体的生活满意度就有五个时期的变动趋势。同理,对于社会整体状况的满意度也有五个时期的变动趋势。在这样的研究设计下,研究者就可以分析针对某一个个体(如个体甲),其生活满意度如何随着对社会整体状况的满意度变化而变化,从而在控制个人固定效应的前提下看两种满意度之间的关联。


在这里,我们拟合两个最小二乘模型。一个模型称为“一般模型”,将不同年份的资料看做一个整体,用对社会整体状况的满意度去预测个体生活满意度。另一个模型称为“固定效应模型”,是在一般模型之上加上个体个人固定效应的哑变量。与上面的经验例证一样,我们拟合最小二乘模型是为了保证系数的可比性(分析结果参见表2)。对比两个模型可以发现,对社会整体状况满意度的解释力从0.265下降到0.176,且这种下降是统计显著的。这说明,个人固定效应背后代表的一系列个体特质的确混淆了两种满意度之间的关联,因此有必要将其控制起来。



通过固定效应的策略来应对“主观解释主观”过程中的混淆偏误,有以下几点需要特别说明。首先,个人固定效应之所以能够作为潜在心理特质的代理变量,一个核心的假设是,这个心理特质不会随着时间变化而变化。换句话说,如果心理特质是历时性变化的,便不能用个人固定效应来代表。此时采用固定个人固定效应的办法仅能够处理那些心理特质比较稳定的情形。当然,我们一般会认为,这一条件在大多数情况下是能够满足的。例如,我们在经验分析的时候通常假设,那些深藏于个体内心的特质具有一个稳定的数值至少不会在短短数年之内发生巨大的变化。其次,用个人固定效应作为代理变量,其代理的因素是那些没有直接观察到的个体特征。其优点在于,研究者不需要像上述变量测量策略中那样明确指出潜在的心理特质究竟是什么,因此,固定效应的分析对研究者的理论要求不是很高。此外,个人固定效应可以代表多个潜在的混淆心理因素,这与基于变量测量的策略相比,也是一个很大的优势,即固定效应模型可以间接控制可能存在的多个混淆心理特质。最后,基于个人固定效应的分析之所以能够帮助应对混淆偏误,在于自变量和因变量都是由个人固定效应以及个人固定效应背后的心理特质发出的,即因果关系的箭头方向是从个体固定效应分别到自变量和因变量。但是,如果这种因果关系的方向反过来,即个体的个人固定效应是由自变量或者因变量来“定义”的,那么我们就不能够利用固定效应模型来处理混淆问题,否则会出现“对撞性误差”(Elwert and Winship,2014)。在有向无环图中,当两个变量A和B同时作用于第三个变量C时,C就被称为“对撞变量”。如果研究者控制了C,那么前置的两个变量A和B就会形成虚假关联。在固定效应模型中,如果作为自变量和因变量的主观变量非常特殊,它们共同定义了一个个体的特征的话,那么个人固定效应(例如ID)就会成为一个对撞变量,此时,如果再控制个人固定效应,就会出现对撞性误差。举个例子,一项调查可以设置两个主观变量问题作为过滤问题。个体一定要满足一定的回答要求(例如都是正面回答)才会接受进一步调查。此时,如果我们控制个人固定效应的话,两个过滤问题就会呈现虚假相关性,即产生所谓的对撞性误差。


06. 三种应对策略的总结


基于上面的分析,我们可以将三种应对策略放在一起进行对比。在表3中,我们从论证难度、资料要求和实践难度三个角度进行总结。



在论证难度上,采取理论论辩的应对策略重在“说服”读者,论证难度很高,需要研究者很好地掌握相关理论资料。同时,如何在论辩的同时克服研究者的主观随意性也是论证过程中需要特别注意的问题。变量测量的策略同样面临比较大的论证难度,这主要是由于研究者需要相关的心理学理论识别混淆效果的那些心理特质究竟是什么,这对于理论的精细度提出了很高的要求。与前面两个应对策略相比,数据分析的策略通常不需要额外的理论阐述,因此,就论证而言,难度不是很高。


在数据资料的要求上,理论论辩不需要任何额外的资料,难度最低。相比而言,变量的测量需要在设计阶段就明确对相关的心理特质进行测量,这通常涉及心理量表的使用或者重复测量。而采用固定效应的分析则通常要求跟踪性的历时数据,其收集难度较传统的截面数据更高。


就操作实践而言,理论论辩重在说理,因此,只要相关的论述具有说服力,就无需经验性的操作,同时,论辩过程可以以理论来处理多个混淆性心理特质的情况。实践难度比较大的是变量测量的策略。虽然从分析过程上讲,常规的软件都可以操作,但以测量为基础的应对策略难以处理多个心理特质并存的情况。相比较而言,这一局限并不会在基于个体固定效应的数据分析策略中出现。固定效应也是比较成熟的统计技术,常规软件也完全可以处理。


综上所述,本文所列举的三种应对“主观解释主观”混淆偏误的策略各有优缺点。整体而言,变量测量的策略无论是在论证、资料还是实践层面上,都是三个策略中难度最大的。与之相比,理论论辩的策略难在理论论证的完备,而数据分析难在收集历时性数据。如果仅对比后面这两种方法,笔者认为,数据分析的策略更优。首先,正如威斯顿(Western,1996)所言,社会学理论往往偏于宏大,通常难以直接对经验分析过程提供非常具体的指向性信息。由于“主观解释主观”的问题从本质上讲还是经验层次的方法论问题,现有社会学的理论的贡献会比较受限。例如,即使是上文所列举的“文化—信任关系”一例中,政治学者史天健的论述也更多地付诸于读者的生活经验和直观感受,而不是立足于更为严格的心理学理论以区分“价值”观究竟何以与“态度”相区别。因此,正如上文所述,他的论述是否成立,很大程度上要取决于读者是否“信服”,这无疑具有很大的随意性和不确定性。


其次,经过过去十几年的发展,目前关于中国社会不同侧面均开始注重积累历时性数据资料,这为数据分析的固定效应策略提供了极大的便利。例如,本文上面讨论中所采用的首都大学生成长追踪调查就成功收集到北京数个具有代表性的大学学生从入学到工作的历时性资料。通过采用多种调查技术和手段,历年之间的数据流失率很低。与之类似的高质量历时性资料还有很多(例如,中国健康与营养调查),且正不断涌现(例如,中国家庭追踪调查),这些都为进行固定效应分析提供了资料支撑。


最后,个体层次的历时性资料收集需要时间的积累,但是,如果研究课题的分析单位可以提高到更高的地区层次,那么大量的官方资料就可以利用(例如人口年鉴、统计年报等等)。此外,自2003年便开始收集的中国综合社会调查可以基于地区或者特定的人口群体(例如,特定的世代)转化为准面板资料。这些准面板数据也可以帮助研究者利用固定效应来处理“主观解释主观”过程中的混淆偏误。


07. 未尽议题


在使用主观变量解释主观变量时,还有一系列未尽的议题,这些议题在本部分进行讨论。具体而言,这些未尽议题包括因果关系的方向、敏感性检验和测量误差。


第一个未尽的议题是,上述的三条应对策略都是针对潜在的混淆偏误。但除了混淆偏误之外,“主观解释主观”的分析进路还面临另外一个方法论上的难题,即因果关系的方向问题。也就是说,即使我们能够克服混淆偏误以确信两个主观变量之间的关联不是虚假的,但我们如何确定这种关联的发生方向呢?以上面所分析的大学生对社会整体状况的满意度与个体生活满意度之间的关系为例,我们的理论假设是对社会整体状况的认知影响个体生活状态,但从另一方面来讲,个体的生活也是整体社会的一部分,如果我们假设人们对于社会整体状况的判断主要基于对自己生活状况的判断,那么因果关系的方向就会变成从个体生活满意度到对社会整体的满意度。此时,因果关系的方向变得难以确定。


从本质上讲,“主观解释主观”分析的因果方向问题难以解决,很大程度上是因为研究者难以确定人们主观变量具体形成的时间点。这与诸如教育水平这样的客观变量是不同的,毕竟一个人何时上大学和何时毕业是一个很清楚的事实问题,非常明确。对于社会学研究者而言,通常会将个体主观观念的形成归因于社会化的过程,但恰恰是因为社会化本身是一个过程,我们很难获知个体的主观观念何时“从无到有”。对于这个问题,理论上的论辩亦难以解决。尽管目前生命历程理论基本上达成共识,认为人们会在青年时期逐渐形成稳定的价值观念,但这一共识对于“主观解释主观”的分析进路帮助有限。因为我们关注的自变量和因变量都有可能是在青年时期形成的。因此,除非有更为精细的对时间点进行识别的理论,否则,我们就难以通过说理的方式来确定因果方向。


从数据测量和数据分析的角度来看,目前学界普遍使用的一个可能确定因果关系方向的方法是“拟合滞后模型”,或者说“动态模型”。所谓滞后,是指将因变量的时序前置测量也作为控制变量放进模型,从而看自变量如何影响因变量的阶段性取值变化(Kenney ,1975),如下所示:


其中,i代表个体,t代表时间。对于t时间点的因变量,我们放入了t时间点解释变量矩阵和其系数向量β的乘积,以及t-1时间点解释变量和其系数的乘积。除此之外,我们还将因变量t-1时间点的观测值控制起来(其系数为θ),εit是随机扰动项。这个模型所要解释的,不再是Y的历时性变化趋势和X的历时性变化趋势有何共变性,而是看t-1阶段的X是否解释Y从t-1时间点到t时间点的“增量”,即系数是否统计显著。如果t-1时刻的X能够解释从t-1到t的Y的变化,我们通常认为是X影响了Y而非相反。


虽然滞后模型的应用很广,但该模型的自变量和因变量是由研究者人为设定的。即研究者将某个变量定位为自变量,因此将其置于方程右侧,而将某个变量置于方程左侧以作为因变量。但问题在于,这种人为的设定是否能够反映真实的变量关系呢?例如,如果我们将X和Y的位置对调,拟合以下模型:


如果γ和γ′都显著的话,我们应当如何解释X和Y之间的因果关系方向呢?为了更好地考察因果关系的方向,我们可以假设不同时间段的X和Y的真实关系,如图7(a)所示。那么控制了Yt-1后,Xt-1对于Yt的影响依旧存在,如图7(b)所示。同理,控制了Xt-1也不足以消除Yt-1对Xt的影响。如图7(c)所示。此时,拟合模型(1)和模型(2),我们会发现γ和γ′都会统计显著。但是,我们无法确定究竟因果方向应该是从X到Y还是相反。此时,如果研究者仅仅拟合对应图7(b)的模型(1),然后得出结论认为因果关系的方向是从X到Y,无疑是有偏差的。同理,如果仅仅拟合与图7(c)对应的模型(2),并由此认为因果关系的方向是从Y到X也是不恰当的。换句话说,无论模型(1)还是模型(2)都难以展现图7(a)这样的交互关联。



除了因果关系的方向之外,在处理“主观解释主观”问题的时候,第二个未尽的议题是如何确定潜在的混淆偏误对研究结论有影响。正如本文一开始所谈到的,我们质疑“主观解释主观”的分析进路是因为我们怀疑两个主观变量都和某个心理特质相连从而造成虚假相关。但是,这种怀疑究竟有多大程度上的合理性呢?或者说,我们是否能够建立一个更加客观的标准,以此来衡量某项经验研究中潜在的选择性偏误呢?


在这方面,统计敏感性检验的思路或许有一定的启示价值(Imbens,2003;Rosenbaum and Rubin,1983)。敏感性检验的思路是,研究者模拟出一个潜在的混淆变量,该变量对主观自变量和主观因变量都产生影响。基于这种设定,研究者可以控制混淆变量对自变量和因变量的影响强度来考察实际观测到的两个主观变量之间的关系如何变化。如果无论如何操作模拟出的混淆变量对两个主观变量的影响,自变量和因变量的关系都不会发生大的变化,那么,我们就可以认为,混淆效应不是很强。但是,如果这个模拟出的混淆变量不需要和自变量或者因变量建立很强的关联就足以否定观测到的自变量—因变量的关系,那么,我们会认为主观变量之间的关联非常容易受到混淆因素的影响。因此,敏感性检验可以帮助我们了解两个主观变量之间的关联在多大程度上受到第三个混淆变量的影响。


为了展示敏感性检验的基本原理,我们还是利用个体生活满意度与对社会整体满意度之间的关系这一例子。我们产生了一系列混淆的正态分布变量C,这一变量的方差为1,但是均值是个体生活满意度与社会满意度的函数,如下:


其中,e服从标准正态分布。基于这种设定,C和因变量的关联强度通过来控制,而和自变量的关联强度通过来控制。之后,我们让ρ和τ各自分别取值为0.1、0.3、0.5、0.7和0.9。这样C就有5×5=25种组合。之后,我们拟合最小二乘回归,其中自变量为社会整体满意度和C,因变量为个体生活满意度。由于模拟出25个C,我们一共拟合了25个回归模型。图8展示了这些模型社会整体满意度回归系数的直方图。可以发现,社会整体满意度的回归系数具有比较大的变异。说明不同性质C的引入带来了回归系数比较大的波动。由此,我们可以认为存在某种混淆偏误。


虽然敏感性检验已经是比较成熟的统计分析方法,但其作用是分析一般性混淆偏误对分析结果的影响,对于衡量“主观解释主观”的混淆偏误问题而言并不是完美的解决方案。这是因为,敏感性检验的结果可以告知混淆偏误是否不存在,但无法告知混淆偏误的来源。如果敏感性检验发现两个主观变量之间的关联相对于第三个变量(无论这个第三个变量究竟是什么)而言非常稳健,我们确实有理由相信潜在心理机制的混淆效果并不严重。但是,如果敏感性检验发现两个主观变量之间的关联不稳健,研究者可能会无法判断这种敏感性的来源是因为潜在的心理机制在发挥混淆作用,还是非心理变量(例如地区、户籍等)在发生混淆作用,或者二者兼而有之,因为这些问题无法通过敏感性检验进行回答。


敏感性检验的另外一个问题在于,这套方法的本质是“无中生有”,即通过人为的统计模拟来制造一个看不到的混淆因素,以此来考察研究结论的稳健性。这其中就涉及如何模拟和刻画看不到的因素的特征。虽然研究者可以尝试不同的模拟过程(例如,设定潜在的混淆变量具有不同的统计分布),但这毕竟无法穷尽各种可能,且各种统计设定并无实际经验信息支撑。正因为如此,经验研究者通常不将敏感性检验作为正式分析的前置程序,而是将它用于正式分析后的稳健性检验工具。


最后一个未尽的议题在于测量误差。在主观解释主观的分析过程中,除了潜在的心理机制造成的混淆偏误之外,影响因果推断的另外一个重要因素便是测量误差。测量误差是一个很宽泛的概念,可能有不同的成因,比如,测量题器对问题描述的不够准确、调查员有一些特定的特征影响被调查对象的答题过程、被调查对象有特定的回答问题偏好(如社会期待效应),等等,不一而足。测量误差之所以会对因果关系产生影响,是因为在线性模型中,自变量的测量误差会让回归系数趋向于零。如果自变量和因变量是曲线关系,测量误差就会让曲线关系趋向于直线关系。


从本质上讲,测量误差是测量上的问题,而本文上面所讨论的是某种“遗漏变量”问题。因此,它们对于主观解释主观分析进路的影响是不同的,上文介绍的方法亦不能直接处理测量误差问题。例如,测量误差可能有时间变化性,从而和历时性的自变量和历时性的因变量有共变。此时,个体固定效应即使被控制起来也不能够消除测量误差对于主观—主观关系的影响。


但是,本文介绍的方法却可以和处理测量误差的方法结合起来使用。具体而言,测量误差的处理逻辑是使用没有测量误差的某个变量来代替原来的具有测量误差的变量(用W指代)进行分析(Bennett,et al.,2017)。最理想的情况下是部分被研究个体有真实值(用X指代,此真实值没有测量误差)的测量,这样研究者就能够用具有测量误差的变量W去预测X,然后用模型的预测值代替原有变量W进行分析(这种方法也叫“回归校准”)。如果缺少真实值的测量,我们基于经典测量误差的假设也可以用其他的重复性测量进行回归校准。最后,如果经典的测量误差假设不成立,我们也可以使用更为复杂的测量误差处理方法,比如,矩重构或者多元填充,但这些复杂的处理方法本身还是遵循了同样的逻辑,即通过统计分析建构不受测量误差影响的变量,以代替原有的受测量误差影响的变量。


显然,基于这种“变量代替”的逻辑,我们完全可以将处理测量误差的方法与本文谈到的方法结合起来,即用新生成的变量来代替原来具有测量误差的变量,然后采用变量测量和数据分析的策略来应对潜在心理特质带来的选择性偏误。当然,能够这样做的前提是有补充的信息来源帮助我们矫正测量误差(如同一变量的多个测量,或者多项研究在分析对象上的交叉)。


08. 结语


社会学研究非常关注主观变量的社会影响,同样也注重分析个体主观倾向的决定因素。但是,当我们用主观变量来解释主观变量时,学者们往往会因为顾虑到潜在心理特质的混淆效应而对分析结果产生质疑。尽管如此,方法论上的顾虑不应该成为限制社会学者研究主观变量之间关系的一道屏障。相反,考虑到“主观解释主观”的分析路径所具有的独特理论和现实意义,我们有必要严格地审视由于潜在心理特质所造成的混淆偏误,并思考通过何种手段,尽可能地消除其影响。在此背景下,本文从理论论辩、变量测量和数据分析三个角度讨论了可能的应对策略,以期对经验研究者有所启示。


此外,本文对于“主观解释主观”问题中因果关系的方向、敏感性分析和测量误差等未尽的议题进行了讨论。虽然这些未尽议题仍没有普适性的答案,但“主观解释主观”依旧不失为是一个重要的社会学经验分析进路。方法论上的困难可以通过方法的改进得以克服,但如果因为方法上的不足而放弃一整套分析问题的思路,就会变成因小失大。这不仅会限制社会学经验研究的适用范围,还会阻碍社会学与心理学、政治学等学科的交叉与互鉴,这在学科融合日益深入的今天,无疑是不足取的。


注释和参考文献(略)


如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com