量化研究论文一般被认为具有较强的学术规范性,主要因为各个部分的写作要求比较明确,彭玉生教授将量化研究论文的写作规范总结为“洋八股”。而在量化研究论文中相对最能体现量化的“技术”含量,并且这部分的写作往往对于“老手”而言是最简单的,但对于初学者而言往往是最容易犯错误的。一般情况下,在量化研究论文中的研究方法部分主要包含:数据、变量与方法三块内容,因而我们也经常看到在有的论文之中对研究方法的表述直接就写为“数据、变量与方法”。
建议一、关于数据
传统量化研究所使用的数据一般有三个主要来源:其一是自调查数据;其二是其他机构公开的调查数据(如CGSS等);其三是汇总统计数据(如统计年鉴等)。
-1.自调查数据如何介绍
近年来,使用自调查数据的量化研究论文越来越少,尤其是在社会学领域,但在教育学领域自调查数据还相对较多。关于自调查数据的介绍最重要的有三个方面的内容:抽样过程、样本量、回收率。
其中,抽样过程尤为重要,因为这是评判数据是否有代表性的重要依据,这就需要把开展调查前的抽样设计详细地进行交代。
其次,是样本量,我们知道样本量过少在量化研究中还不能接受的,一方面是代表性的问题,另一方面样本量小会使得统计结果不显著(数学原理:t值决定显著性,标准误影响t值,样本量影响标准误)。
最后是回收率,关于回收率的问题可能在国内的社会调查界存在不同的认识,我们经常看见的回收率都在95%以上,但未必回收率越高越好(关于这一问题风笑天教授和郝大海教授曾在《社会学研究》上展开过精彩的论辩),而研究者应该实事求是的回报回收率。
-2.公开的调查数据如何介绍
公开调查的数据介绍相对简单,每个数据库在公开时都会附有数据的详细说明,但是研究者需要注意的一点是,公开数据介绍这一部分的文字往往是论文查重率的“重灾区”,因而为了防止这一问题可以对数据进行精简介绍,然后增加一个注释:详见XXX数据官网。此外,对于公开数据进行非常详细的介绍也没有很大的必要,因为这些公开数据可能学者们也都会比较熟悉。
在使用公开数据进行介绍的最重要的一点是交代清楚缺失值的处理情况,例如CFPS2010可能有2万个样本,但是在你的模型中只用了1.5万个,研究者需要详细说明被处理掉的5000个样本依据是什么以及如何操作的。我们这样做的目的就是为了让研究“透明化”这也是科学研究所必备的。
-3.汇总统计数据如何介绍
使用汇总数据进行研究在经济学等学科中较为常见,但是近年来随着多层模型的发展,越来越多研究者不满足于微观层次的分析,而注重宏观层面的解释,这就需要使用到汇总数据。汇总数据一般来源于官方统计,在这里对于解除统计年鉴较少的研究者需要特别注意的是,统计年鉴往往是滞后一年的数据,例如2022年全国统计年鉴统计的是2021年的情况。
建议二:关于变量
变量部分是量化研究的重中之重,在一定程度上也是决定量化研究能否开展的关键环节。变量部分在量化论文写作中主要有三个方面需要阐述,其一是变量的测量;其二是变量的选择;其三是变量的描述。
-1.变量的测量
变量的测量就是概念的操作化问题,即如何从一个宏大的概念操作化成为一个可以测量的指标。这一环节是决定我们的想法能否落地的关键,很多定量研究的想法或者思路往往夭折在这一环节。对于变量的测量如果是在自行调查的数据之中,往往体现在问卷设计的环节。而当下多数学者会选择使用公开调查数据,这就涉及到如何在已有的数据库中寻找合适的问题来测量自己的概念,这就需要作者详细交代清楚用的哪一个问题来测量,以及这一问题的题项(答案)都有什么。例如,当研究者想研究性别观念,这是一个相对不清晰的概念
-2.变量的选择
这里所说的变量的选择一般指的是控制变量的选择问题。在一个回归模型中需要控制哪些变量、不要控制哪些变量是一门很重要的学问。控制多了会造成关键自变量不显著、控制少了又会发生虚假相关的问题。这一点,经济学的权威期刊上的研究做的相对较好,每一个变量的加入都有理论或文献支持,而不是随意的选择。回归模型中的控制变量选择可以依靠纯统计学方法来解决如逐步回归,但是纯粹依靠数学原理选择出来的变量往往会和理论断档。因而,控制变量的选择需要理论和统计进行平衡。
-3.变量的描述
变量的描述有时候也会被放置在研究结果部分作为统计描述结果进行呈现,但多数研究之中会在变量测量这一部分结束后来描述一下所使用的变量的情况。变量描述的重要意义在于向读者展示数据分布情况。然而在实际中往往会被忽视,并出现较多的错误。其中最为常见的错误就是不顾一切的计算均值和标准差。均值和标准差的确具有优良的统计性质,但是并不是所有变量都适用,尤其是在社会科学研究之中,有很多变量是类别变量,例如被访者的婚姻状态分别编码为0=未婚;1=在婚;2=离婚;3=丧偶,对于这样的变量如果算出来均值是1.2,又有什么意义?又该如何解释?显然这样是违反统计学原理的。因为只有连续变量才可以计算均值和标准差,而类别变量需要汇报百分比,例如:未婚的占30%;在婚的占50%;离婚的占10%;丧偶的占10%。但是对于一类特殊的类别变量,也就是0/1编码的二分类变量,也称之为虚拟变量(哑变量等)可以计算均值,因为计算出来的均值是编码为1的占比。
造成这种常见错误的主要原因:
一是研究者本身不知道哪些变量可以计算均值,哪些不可以计算;
二是统计软件是没有灵魂的,只要让他算他都会计算,造成对研究者的误导。这一方面R语言较为严谨,因为R语言需要明确定义变量的类型,对于因子型(类别)变量,软件本身就无法计算均值。
建议三:关于统计方法
-1.有无必要列数学公式?
在经济学的文章中我们经常会看到大篇幅的统计学公式推演过程,这就使得一些初学者误以为在方法描述上都需要写出数学公式。然而,经济学的数学推导过程是一个理论框架建构的过程,而如果研究者仅仅使用OLS回归或Logit回归等常见模型是没有必要写出公式的。此外,对于一些很复杂的以及最新提出的研究方法是有必要列出公式的,这样可以使审稿人和读者更加清晰方法的原理。
-2.“本文使用SPSS21.0进行分析”这种表达有无必要?
这种表达一般在学位论文以及水平较低的论文中经常见到,仿佛研究者的理解是只要用了某个软件自己的结果就是“高大上”的,而这种做法恰恰是错的。这就好比我们写论文不会说自己用了什么牌子的电脑一样。我们的确会在一些比较高质量的文章中也见到这样的表述,而如果大家留心观察的话会发现,只有那些使用了复杂方法以及最新提出的方法时才会汇报,因为对于这些复杂方法的确会存在不同软件计算结果不一致的情况。
总之,我们在写研究方法这一部分时,主要目的就是要让自己的研究更加透明化、可复制化,而不是让大家看到一个“黑箱”,这一部分的内容也是最能体现量化研究科学精神之所在。
转自量化研究方法微信公众号,仅作学习交流,如有侵权,请联系本站删除!