政治学抽样调查面临概念抽象、复杂,难以测量,理论假设中的关系结构复杂,不得不较多依赖面访式概率抽样调查的难点。受这些难点所限,一些调查中发生了概念不清、社会期许偏差、评价参照系偏差、覆盖偏差、无回答偏差,以及抽样成本高昂和无应答率居高不下等问题。针对这些难点和问题,学者们利用列举实验法、随机化回答技术、虚拟情境锚定法来解决社会期许偏差和评价参照系偏差问题;利用地址抽样来解决覆盖偏差问题,以空间单元格和夜间灯光亮度来降低高昂的抽样成本;以并行数据的应用来降低访员效应,处理无应答,构建应答代表性指标,以此提高调查和统计推断的质量。这些创新方法为政治学抽样调查的精准化积累了有益经验。
政治学抽样调查面临概念抽象、复杂,难以测量,理论假设中的关系结构复杂,不得不较多依赖面访式概率抽样调查的难点。受这些难点所限,一些调查中发生了概念不清、社会期许偏差、评价参照系偏差、覆盖偏差、无回答偏差,以及抽样成本高昂和无应答率居高不下等问题。针对这些难点和问题,学者们利用列举实验法、随机化回答技术、虚拟情境锚定法来解决社会期许偏差和评价参照系偏差问题;利用地址抽样来解决覆盖偏差问题,以空间单元格和夜间灯光亮度来降低高昂的抽样成本;以并行数据的应用来降低访员效应,处理无应答,构建应答代表性指标,以此提高调查和统计推断的质量。这些创新方法为政治学抽样调查的精准化积累了有益经验。
近些年,政治学研究方法出现了一种混合路径的趋势,例如,将抽样调查法和大数据法相结合、和实验法相结合,但是抽样调查法仍为多数研究者所采用。政治学研究中的抽样调查通常指概率抽样调查,即按照一定的概率以随机原则抽取样本,使总体中每一个个体都有一个已知不为零的被选机会进入样本,然后用结构化问卷采集数据的一种调查方式。其优点是已知每个样本的入选概率从而推论总体,使用结构化问卷则可以尽量避免测量误差。
抽样调查属于理论驱动的研究模式,从提出理论假设开始,历经概念操作化、问卷设计、抽样、数据采集、数据分析、得出研究结论等主要环节达成研究目标。在理论假设和数据分析阶段,近些年的政治学研究更加重视因果推断方法的改进和复杂模型的应用。例如,为实现因果推断而采用实验室实验、现场实验、调查实验、自然实验的设计;为检验因果假设而使用匹配法、工具变量法、差分法(也称倍差法)、断点回归设计、固定效应模型、Heckman选择模型等统计分析技术;为了分析宏观因素对个体行为或态度的影响,应用多水平模型;为了研究复杂概念之间的关系结构,应用结构方程模型、潜在类别分析法等。关于理论假设和数据分析阶段的创新方法已有相应的讨论和综述,为此,本文将综述政治学抽样调查在问卷设计、抽样、数据采集方面的难点、问题,以及一些创新性解决方案。
1
政治学抽样调查的难点与问题
(一)概念抽象、复杂、宏观,产生测量误差问题
抽样调查用结构化的问卷采集数据,形成结构化的问卷需要对概念进行操作化处理。政治学研究中的概念和其他社会科学中的概念相比具有更为抽象、复杂、宏观的特点。政治学的核心概念包括:权力、权利、权威、利益;体制、制度、规则、规范;民主、政治发展、现代化;政治行为;政治文化、政治价值、政治态度;政治知识;政治绩效、公共服务绩效、公共政策绩效,等等。将这些概念写成问卷中的题目,形成可定量测量的变量,具有非常大的难度。这是因为受访者常常无法对题目有相同理解,或者不具备回答问题所需的知识,或者对题目很陌生,或者没有切实的与政治有关的经历。也正因为概念的抽象、复杂、宏观,常常导致研究者在设计问卷时遇到以下问题:
1.概念定义不明确。例如:“您认为本县政府官员为政清廉吗?”为政清廉的定义不明确。“您认为美国的民主程度如何?”民主的概念不明确,人们有不同的理解,给出的答案不具有可比性。民主的概念可以从价值、原则、制度、程序、要素、绩效评价等多维度进行测量,用任何一个单一测量的题目都无法准确获得人们对这个概念的完整理解。类似的概念和不明确的测量方式不胜枚举。
2.负担过重,难以理解或回答。包括专业词汇、过长量表、过长题干、逻辑复杂等带来的难以理解和难以回答等。例如:“‘生意人赚钱实际上最终对所有人都有好处,所以是可以接受的。’您对这种说法是非常同意、比较同意、不太同意,还是非常不同意?”受访者会提出质疑,为什么生意人赚钱对所有人都有好处,受访者难以理解其中的逻辑关系。
3.易发诱导。例如:“您认为市政府应该花费更多的税收去拆毁棚户区吗?”也是给出了不平衡的选择,只提到了拆,没有提到建,导致受访者的答案偏向一方。政治学中的有争论性的观点较多,在设计上本应该提供平衡的选择,但很多调查问卷设计者忽视了这一点,从而发生了诱导受访者的结果。
4.产生评价参照系偏差。政治学研究比较关注政府行为和公共政策绩效,调查内容中经常有类似“评价”的题目。例如:“您认为本市当前的公共医疗服务居于什么水平?”受访者在回答这类题目时,各自的参照系不同,给出的答案则不具有可比性。例如,有的受访者在回答时会询问:“医疗服务水平和谁比呢?和过去5年相比,还是和我心中的期望相比?和北京比,还是和哪个城市比?”如果在没有一致参照系的情况下,直接使用原始测量得来的数据进行统计推断则会导致估计偏差,这被称为评价参照系偏差。
5.产生社会期许偏差。政治学研究中的一些题目测量的内容已经形成了一般社会规范,受访者回答时,迫于社会规范压力,会少报社会非期许行为,而倾向于回答出社会所希望的行为,这类回答被称为社会期许回答(socially desirable responding,SDR),即个体在特定情境下给出适应社会或文化规则及标准的倾向性回答。这类回答在面对面访问模式或电话访问模式中由访员的“社会在场”(social presence)效应所致。访员的“社会在场”会促使受访者在应答时考虑社会规范。使得调查结果系统性偏向那些“正确的”或者社会所提倡的行为,与实际情况发生偏离,这种偏离被称为社会期许偏差(social desirability bias),一些中文文献也称其为“社会意愿偏差”“社会称许性偏差”“社会期许效应”等。社会期许回答容易发生在以下题目中:政治支持、政治信任;国家认同、爱国主义;自尊、公民行为、违法行为等。敏感题目通常也会产生社会期许回答。
(二)依赖面访调查和概率抽样,产生成本高昂问题
抽样调查常用的调查模式有面对面访问、电话访问、网络访问、集中自填问卷等。政治学研究中的理论假设通常具有复杂的关系结构,例如,评估公共政策绩效,不仅要考虑人们自身和家庭的客观受益、主观获得感,还要考虑人们对政治、经济、社会、人文自然环境等大环境的评价和感受,还要考虑到人们对公共政策的知晓度、期望值等。复杂的关系结构需要测量更多的变量,需要依赖面访调查来实现,这是因为面访调查可以容纳30分钟及以上的问卷容量,而电话访问和网络访问则不具备这方面的优势。但是面访调查成本高昂,通常是电访调查成本的2~4倍。
另一方面,政治学研究对概率抽样调查比较依赖,主要原因在于机构统计数据不如经济学丰富,网络大数据不如社会学、新闻传播学丰富。在抽样调查中首先要解决覆盖偏差问题。覆盖偏差来自抽样框总体和研究总体的不一致,例如,要研究一个城市的常住居民对公共政策的评价,如果使用社区居民户籍册资料作为抽样框,则会导致已经在这个城市居住半年以上的外来人口无法被抽中。覆盖偏差由两部分构成,一个是未覆盖总体占研究总体的比例,另一个是在某一研究变量上未覆盖总体与覆盖总体之间的系统性差异。如果存在覆盖偏差,用样本推断总体时则会产生偏差。为了解决这个问题,在以人或家户为研究对象的抽样调查中,国内学者经常使用住宅地址抽样框。中国社会综合状况调查(CGSS)、中国家庭追踪调查(CFPS)、世界价值观调查(WVS)等均采用了地址抽样,可有效推断常住人口的状况,对于公共政策研究、政治参与研究具有重要意义。但是,构建地址抽样框的成本比较高,和户籍抽样框相比,到实地画住宅地址分布图,制作住宅地址列表所发生的交通差旅费、人员劳务费全部是额外增加的成本。
(三)受访者对政治不感兴趣,产生高比例无应答问题
多数受访者对政治话题或者政治行为不感兴趣,对政治学主题的问卷调查也相应地表现出更高比例的无应答。无应答包括单元无应答和题目无应答,前者是指在一次抽样调查中,无法从样本那里获得任何一项回答。后者指样本虽然接受了访问,但是对某个调查问题没有提供答案。政治学抽样调查中的单元无应答和题目无应答比例已经高于5%,例如,2012年政府公共产品与公共服务调查的单元无应答率为34%,2015年国际化与城市治理调查的单元无应答率为35%,一些题目无应答比例能够达到20%左右,很多题目无应答比率比其他学科的要高。而高比例的无应答通常会产生估计偏差。
针对以上难点和问题,从事政治学定量研究的学者们一直在寻求解决方案,近年来也在方法上取得了一些创新性成果。
2
在问卷设计方面的创新方法
近年来政治学者在精准测量方面做出了许多努力,包括:1.为避免多选题首位效应,将题目选项进行随机化排列;2.为解决抽象概念难以理解问题,使用虚拟情境测量法(例如,沈明明在2003年法制调查中测量“纠纷的解决办法”)、列举法(沈明明用该方法在2003年法制调查中测量“纠纷”);层层递进法(沈明明用该方法在2008年中国公民意识调查中测量“民主”;朱云汉、史天健用该方法在亚洲民主动态跟踪调查中测量“民主”)等;3.为解决敏感问题、社会期许偏差的测量难题,使用列举实验法;4.为解决评价参照系偏差,使用虚拟情境锚定法等。在这些努力中,识别和控制社会期许偏差、评价参照系偏差方面取得的进展值得关注。
(一) 社会期许偏差及其识别与控制
对于可能产生社会期许回答的题目,研究者在编写问卷时采用的列举实验法和随机化回答技术具有创新意义,列举实验法还在不断热议和改进中。
1.列举实验法(list experiment)。该方法在社会学相关文献中被称为条目计数方法(item count techniques)。列举实验要求受访者报告条目(即题目中的选项)总数而非具体条目来降低受访过程中其感受到的社会压力。需将受访者随机分为实验组和对照组。研究者在问卷中给对照组提供n个条目,给实验组提供n+1个条目,请受访者直接回答条目总数,不需要回答具体是哪个条目。增加的条目就是研究者认为有可能带来社会期许回答的关键条目。进行数据分析时,R软件提供专门的软件包(list)可以计算出两组的均值差(即选择关键条目的比例)、标准误(standard error),也能根据研究假设执行回归分析。其设计方式如下所示:
[A卷]Q1.您在互联网上做过下列提到的件事情?您不必说具体哪件,请告诉我0到3之间的一个数字。(出示答案卡)a.玩游戏b.购物c.看小说。
[B卷]Q1.您在互联网上做过下列提到的件事情?您不必说具体哪件,请告诉我0到4之间的一个数字。(出示答案卡)a.玩游戏b.购物c.批评政府官员或政策d.看小说。
在列举实验中,关键条目之外的条目被称为控制项。控制项的设计会影响受访者对关键条目的回答,设计不好会产生“天花板效应”(ceiling effects)或“地板效应”(floor effects)。天花板效应是指很多受访人都会选择所有控制项,受访人可以猜到调查者意图,从而导致对关键条目的测量受到干扰;地板效应是指很多受访人都不会选择这些控制项,受访人也可以猜到调查者意图。在这两种情况下,受访人对关键条目的回答还是会隐瞒真实情况,无法降低社会期许偏差。所以列举实验的条目设计尤为重要。不能都是很流行的或都是很罕见的控制项;条目之间应相互独立,避免受访者同时符合多个情况;控制项之间要负相关;条目在受访者人群中应有较大方差;条目也应该随机排列顺序,等等。
目前,利用列举实验来识别社会期许偏差已取得显著效果,例如,孟天广和季程远利用列举实验测量了激进政治行为,发现传统测量方法明显低估了激进政治行为的水平;孟天广等利用列举实验法对中国省市级干部吸纳公民意见的意愿进行了测量,发现该意愿存在显著的社会期许偏差。
2.随机化回答技术(randomized response techniques,RRT)。其基本特点是让受访者随机地在一个可能产生社会期许回答的题目和一个不会产生社会期许回答的题目中自行选择回答哪个题目,从而减少其面对访员的“社会在场”带来的回答压力。然后用两组的差异来估计真实回答的比例和标准误。
例如:随机分为两组受访者。对第一组人这样问:“下面的问题涉及您是否在2000年的总统选举中投了票。人们有时因为个人原因不愿意回答是否投票。为了尊重您的隐私,这道题使用的方法能够保护您的隐私,尽管您不用告诉我是否投了票。开始之前,您能找一个硬币吗,……首先请扔一下硬币,千万不要告诉我是哪个面朝上,如果是字朝上,请回答‘A.昨晚11∶00,是否看电视新闻了?’如果是头像朝上,请回答‘B.您是否在2000年选举中投了票?’好了,现在请告诉我您得到的答案是‘是’还是‘否’。……现在请回答另外一个问题:C.您有哥哥或者姐姐吗?”对第二组人采用同样的方法,但是是否看电视新闻和是否有哥哥姐姐这两道题目互换了位置。进行数据分析时,假设第一组已知回答“是”的比例:(A+B)/2=0.3,C=0.7;第二组已知回答“是”的比例:(C+B)/2=0.4,A=0.5;通过两式比较,可计算出回答B的比例=0.1,还可以利用这些题目上的回答比例和样本规模,计算出该比例的标准误。
除此之外,随机化回答的传统方法还有沃纳(Warner)随机化模型(受访者从两个相反问题中随机抽取一个回答,调查人员不知道被调查者抽中哪一个问题)、西蒙斯(Simmons)随机化模型(受访者从两个不相关的问题中随机抽取一个回答,第二个问题是与所调查的敏感性问题完全不相关的非敏感性问题)、Fox和Tracy模型(实验中则采用两个骰子作为随机化工具,受访者抛出骰子后,不能让访员知道骰子的点数。如果两个骰子的点数之和为2、3,或4,受访者必须回答“是”,如果点数之和为11或12,受访者必须回答“否”,在其他情况下,受访者期望给出真实的回答,这种方法又被称为强制应答方法)等。
(二) 评价参照系偏差及其识别与控制
应对评价参照系偏差的办法是给受访者设计统一的参照系。近年出现的虚拟情境锚定法(anchoring vignettes)具有明显的创新价值。虚拟情境锚定法将虚拟情境法和评价参照系相结合,发挥二者的优势来解决抽象、复杂概念的测量问题。由哈佛大学加里·金(Gary King)教授提出。他将其用于解决跨文化群体在抽象概念或复杂概念上的可比性。跨文化研究是比较政治学的核心议题,由于不同群体对抽象概念的理解受文化环境的影响,从而造成政治学抽样调查的一个难题。金以政治效能感为例说明了这种方法解决问题的有效性。政治效能感是指个人对自己的政治行为能够或可能对政治过程施加影响的一种信念或感觉。
在政治学以往的调查中,直接测量政治效能感的方式如下:
在2003年法制调查中,笔者针对a、b、c三道题目中回答不知道的受访者追问了其原因,发现分别有71.0%、55.1%、61.2%的受访者是因为不明白题目问的是什么而选择了“不知道”。除此之外,受访者在评价自己的政治效能感水平时,参照系不一。在这种情况下,如果采用直接测量的方式则无法获得较高的效度。为此采用虚拟情境法则显得必要。虚拟情境锚定法将评价参照系和虚拟情境相结合,既可以解决无参照系导致的偏差,还可以解决受访者对复杂抽象概念难以理解的测量难题。
金在测量政治效能感时设计了5个情境,根据效能感的强弱高低之分,请受访者回答这5个情境中的人物各自的效能感分别是多少,然后再请受访者回答自己的效能感。分析数据时,用自己的效能感和另外5个场景里面的人物做对比,从而得出受访者的效能感水平。金对中国和墨西哥进行了跨国比较研究,结果发现,未采用虚拟情境锚定法时,有大于50%的墨西哥受访者政治效能感处于最低级别,而中国受访者这一比例还不到30%;使用虚拟情境锚定法后,有大于40%的中国受访者处在效能感最低级别,而墨西哥受访者的这一比例下降到18%。刘小青在中国的城市和乡村也做了类似实验,发现了虚拟情境锚定法测量政治效能感的效用。
虚拟情境锚定法设计的关键是情境中描述的强弱之分要和绝大多数受访者理解的强弱之分相一致,并且要有区分度。下面是一个失败的案例,设计的思路是Q3场景里面的效能感要高于Q2。受访者回答的数据显示,1005个样本中,有5.3%的样本与设计者逻辑相反,另有63.6%的样本认为Q3和Q2效能感相等。
Q2.张娟/张强所在的村/社区正在拆迁,张娟/张强觉得自己得到的补偿数额不公平。于是她/他联系市政府有关部门,要求重新核定补偿数额,有关部门表示研究解决。您觉得,在让政府解决关系张娟/张强切身利益问题的时候,张娟/张强有多大的影响力?
Q3.赵娟/赵强所在的村/社区正在拆迁,赵娟/赵强觉得自己得到的补偿数额不公平。于是她/他到市政府上访,要求重新核定补偿数额,有关部门承诺解决。您觉得,在让政府解决关系赵娟/赵强切身利益问题的时候,赵娟/赵强有多大的影响力?
为此,虚拟情境锚定法在使用的过程中必须经过多轮的测试调查,以便将设计者和受访者之间的理解偏差尽可能降低,尤其是在强弱之分和增加差异性方面。
3
降低抽样成本的创新方法
为避免覆盖偏差,采用地址抽样是当前比较常用的抽样方法。地址抽样通常先用分层、多阶段、概率与规模成比例的抽样方法抽取区县级行政单位作为初级抽样单位(primary sampling units,PSU)。在被抽中的区县级行政单位之内再抽取次级抽样单位,例如村委会或居委会/社区(以下简称“村/居”),抽取了村/居之后,普查村/居内的住宅地址,构建住宅地址抽样框,再抽取住宅地址。
(一) 以空间单元代替行政区划作为抽样单位
常用的次级抽样单位有两种类型:一类是村委会或居委会/社区,例如,中国家庭追踪调查、中国社会综合状况调查;另外一类是以经度和纬度确定出来的空间单元。已经被使用的空间单元为“半分格”,即以空间上的30秒经度和30秒纬度构成的单元格。使用空间单元格的方法可以在不违反抽样科学性、不降低抽样精度的前提下降低抽样成本和实施难度。属于近几年在抽样方面的创新性解决方案。北京大学中国国情研究中心2002年在北京和成都两个城市内首次使用空间单元格作为抽样单位,在涵盖流动人口和抽样效果方面都取得了良好效果,后命名为“GPS/GIS辅助的地址抽样法”。2009年之后为世界价值观调查、地方政府质量调查(The Local Governance Performance Index,LGPI)等国际调查项目组采纳,在发展中国家得以推广。
由于面积小、不需要村/居干部作为带路人,以半分格为抽样单位在实施难度上相对较低,并且更具有成本上的优势。对比半分格和村/居的抽样成本,前者由于面积小(约0.72平方公里)、边界明确并且固定(边界由经纬度确定)、易识别(用GPS仪显示经纬度),因此相应的人力和时间成本要低很多。例如,2010年中国家庭追踪调查有649个村/居,地址画图和登记工作动用的人力除了抽样员之外,还需要村/居干部作为带路人以便识别边界。绘图和住户列表清单制作工作从2009年11月开始,到2010年6月完成,历时半年,共动用了243名绘图员。相比之下,每个半分格的地址画图和登记工作只需要2个人力1天时间,平均每个半分格的地址画图和登记费用为村/居地址画图和登记工作费用的1/5。
(二) 以夜间灯光亮度作为规模度量
近几年,使用半分格作为抽样单位的方法又在降低成本方面尝试了新技术——以夜间灯光亮度作为半分格的规模度量(measure of size),代替了以往的人力估算半分格人口密度的方法。在GPS/GIS辅助的地址抽样法中,最大的难点是半分格的规模度量数据从何而来。最初的方法是通过乡镇人口数、乡镇内半分格的有效居住面积来估算每个半分格的人口密度。因为要投入人力对照google earth地图来排除无人居住的面积,需要花费人力和时间成本。为降低该成本,国内学者开始使用DMSP/OLS夜间灯光亮度作为半分格的规模度量。
DMSP/OLS夜间灯光亮度数据以半分格为单位,记录了每个半分格的夜间灯光亮度,跨越范围为经度-180~180°,纬度-65~75°,灯光亮度以0为背景值,1~63为灯光亮度值,数值越大表示人口越密集。使用夜间灯光亮度数据作为半分格的规模度量,成本大大降低,该数据可直接从美国国家地球物理数据中心网站免费下载。打开抽样框之后,使用统计软件(例如STATA中的PPS抽样命令gsample)不到一个小时的时间就可以完成该项抽样工作。
DMSP/OLS夜间灯光亮度数据可作为人类活动的表征,是研究人类活动的良好数据源,已经被应用到许多研究领域,例如,萨顿(Sutton P.C)等学者利用灯光数据和城市人口之间的统计关系对全球人口做了估计。程砾瑜利用1995年、2000年、2002年的夜间灯光亮度数据与当年的分县人口密度做线性回归分析,分别得到R2=0.83、0.85、0.86的结果,表明灯光亮度数据和人口密度有显著的线性关系。由于夜间灯光数据与人口密度具有显著的关系,因此具有了可以用来代表人口密度的可能性。北京大学中国国情研究中心在一项有关公共服务满意度的全国调查中使用了夜间灯光亮度数据。这项调查在全国共抽取180个半分格作为次级抽样单位。在抽取半分格的时候,使用夜间灯光亮度作为规模度量。表1数据说明了夜间灯光亮度与实地普查回来的住宅地址数量之间的对数线性关系。其中,调整后的确定系数为0.67,残差分析的结果表明该模型满足误差项零均值、方差齐、线性、正态分布、无序列相关的线性回归前提假定条件,并且得到了较好的整体解释力。
2012年世界价值观调查也采用了夜间灯光亮度数据作为规模度量,通过比较该调查与中国家庭追踪调查一些常用变量的抽样误差可以发现:不论是以半分格为抽样单位(以夜间灯光亮度为规模度量),还是以村/居为抽样单位,两种方法在关键变量估计精度上虽有高低之分,但都在可接受的较高精度范围之内。表2列举了两项调查在年龄、性别、教育程度变量上的抽样误差。可以看出标准误、均值变异系数都在比较低的范围之内,说明在这些变量上的精度较高。在其他变量上的抽样误差,读者们可自行下载数据库进行检验,这里不再赘述。
4
利用并行数据提高调查质量,
处理无应答的创新方法
(一)以并行数据控制访员效应
并行数据(paradata)是指关于调查过程的数据,与问卷数据同期采集。计算机辅助调查模式(CAI模式)的兴起带来了丰富的并行数据。有学者归纳,目前可以采集的并行数据有联系记录、访员观察、访问录音、访问痕迹(包含时间点、键盘操作痕迹等)、样本调配数据等。其研究综述了以往对于并行数据的研究成果,并且用中国家庭追踪调查数据评析了并行数据对完善研究设计、优化调查管理、提高调查质量发挥的重要作用。
在抽样调查的数据采集过程中,如何避免访员效应至关重要。访员效应(interviewer effect)是指由访员差别带来的调查结果差异,其来源除了性别、个性特征等不可变因素外,也来源于访员的不规范访问行为。访员的不规范访问行为主要包括各类形式的非随机取样(如替换或访错地址;替换或访错个人等)、不规范访问(臆答、诱导、提问不完整、关键词不重读、举例不完整、追问不足、捷径跳转)和不规范操作(未使用答案卡、未能面对面)等。如果不能有效消除系统性的访员效应,尤其是由于访员不规范访问行为带来的测量误差,那么,将直接危害研究者事后的统计推论和因果关系识别。表3显示了访员效应对数据质量的影响(组内相关系数ICC=0.127,说明访员特征对这组变量组间变异量的贡献达到了12.7%),也显示出并行数据(访问时长、完访顺序、当日完访顺序)对题目答案所造成的显著影响。在政治学抽样调查中应用并行数据可以有效识别访员效应,可以在调查过程中及时地纠正访员的不规范行为,从而提高调查质量。
(二) 以并行数据处理无应答
在政治学研究中并行数据也被用来处理无应答。无应答在数据分析时多数被认定为缺失值。笔者在对政治学敏感问题进行缺失值多重插补时,发现了“采访员对受访者对该项调查兴趣的判断”这种并行数据有不可忽略的作用,并在2017年的研究中指出,访员观察中的“对调查的兴趣”“对题目的理解能力”“对回答的担忧”等并行数据是进行缺失值多重插补的不可缺少的辅助变量,在调查过程中应该采集这些数据,从而提高推断精准度。
除此之外,最近有研究发现,在调查过程中利用并行数据、问卷数据和相关的统计数据构建应答代表性指标也可以降低无应答误差带来的不良影响。应答代表性指标致力于替代应答率来监控调查质量,要求在调查过程中随时根据应答代表性指标来映射调查总体的分布,如国外研究者提出的回应式社会调查设计(responsive survey design),其特点是在调查过程中及时计算应答代表性指标并以此为指导改变调查设计,达到有效提高成本效益和测量精度的目的,从而解决仅仅依靠应答率监控调查过程所带来的应答人群和无应答人群的系统化差异问题。并行数据中的访员特征、访员观察、访问操作痕迹都被纳入应答代表性指标中,任莉颖的研究验证了这些指标的效用。
5
未来5~10年面临的挑战
政治学抽样调查的每个环节都面临各自的问题与挑战。在理论假设和数据分析方面,未来5~10年,调查数据的因果关系识别方法将取得长足的发展,如前文所述的利用调查实验设计判断因果,或者在抽样调查数据基础上应用匹配法、差分法、断点回归设计、工具变量法等准实验方法识别因果是诸多政治学者的研究取向。
在概念操作化方面,对于复杂、抽样概念的精准测量,跨文化概念的可比性,本土化测量是比较严峻的挑战。前文提到了在中国政治学抽样调查中已经应用了评价参照系、列举实验、虚拟情境锚定法、随机化回答技术、层层递进法、多选题选项随机化排列等技术,但是从应用范围来看尚有不足,仍有较多的调查在设计问卷,尤其是对抽样概念进行操作化时较为随意。比较政治学关注跨国比较研究,一些常用的政治学概念,例如,善治、公民文化、社会资本、政治信任、政治效能感等多是起源于欧美的调查问卷题目。这些题目应用到中国语境中会出现受访者无法理解,或者理解的含义与既有研究目标偏离的问题。此外,对于一些常用核心概念的测量进一步标准化、规范化,以便在各个调查中统一使用已提上日程。随着开放数据源的增多,对同样概念使用相同测量已成为可能。在问卷设计原则中,由于新设计一组题目需要历经内部和外部的信度、效度检验,需要的时间成本高,设计失败的风险也高,为此,学者多主张使用成熟的题目。像政治信任、政治效能感、政治参与这类的题目已历经半个多世纪,在中国也应用了30多年,可以规范出一套统一使用的测量指标。
在抽样和调查执行方面,挑战仍来自抽样成本和无应答。为了减少制作抽样框的成本,使用更为丰富的GPS、GIS数据成为新的研究方向。国外学者在突尼斯和非洲的调查中,直接利用google earth地图和当地的GIS数据在办公室就能构建出一个小单元格内的地址名单,从而节省了到实地画图的费用,该技术有望在中国开始应用试验。面对无应答的挑战,受访者驱动(respondent driven sampling)的抽样方式在尝试打破概率抽样的界限,根据贝叶斯统计的思路,在调查过程中不断调整并模拟出总体的分布来,已有统计软件可支持这种运算。
最后,在数据库建设和使用方面,学界正在努力建设共享数据平台,开放数据源逐渐增多成为未来几年的趋势。北京大学的开放数据平台、中国人民大学的中国国家调查数据库、复旦大学社会科学数据平台等,均为学者们提供了广阔的数据空间。在这个领域,未来5~10年的挑战将集中在数据整合方面,这里要实现的整合不是简单地在平台上存储数据源,而是要实现如下目标:1.多源、异构数据的整合。例如,医疗机构数据和有关健康行为的抽样调查数据的整合,这两类数据不仅来源不同,而且数据库结构不同,医疗数据中还有影像、文本资料等,并且跨不同时点,而调查数据与其时点不同步。2.多主题跨库、跨平台检索与调用。例如,当用户输入一个关键词,不仅能够搜索到不同调查的调查结果和相应的研究成果,还需要能够实现在线分析。3.在时间和空间上加强深度研究,包括对重复性调查数据的深度挖掘、对调查数据与并行数据的结合研究等。
总的说来,政治学抽样调查在近些年取得了显著的进展,尤其是在概念操作化、抽样、调查执行和数据分析的因果推断方面。在未来5~10年,学者们在抽样调查方法的内部,在概念的精准测量和规范化方面将投入更多力量,将更倾向于将抽样调查和大数据、实验相结合,发挥各自的专长,对政治学问题开展更为全面、深入、严谨的研究。
转自:“学术必看”微信公众号
如有侵权,请联系本站删除!