资深学者 Sarah Mustillo、Omar Lizardo 和 Rory McVeigh 关注到网络爬虫和文本分析等前沿技术的发展。在担任《美国社会学评论》(ASR) 编辑的三年中,他们处理了数千篇稿件,并对其中反复出现的一系列问题进行了总结。这些问题并非严格意义上的错误,而是反映了社会学定量研究者之间先前接受的做法与定量方法学家中最新技术共识之间的差距或滞后。
1. p 值
关于 值效用的讨论在文献中比比皆是。一方面,那些关心可复制性和新发现标准的人认为,统计显著性的阈值应该降低到 0.05 以下 (Benjamin 等,2018)。另一方面,一些人认为我们应该完全摒弃 值和零假设显著性检验 (McShane 等,2017)。
在这场辩论中,我们不打算表明立场,只是总体上认为, 值小于 0.10 和单尾检验应该只在极少数特殊情况下,并且有恰当的理由时才使用。许多论文试图通过指出其口头提出的假设中的“方向性”来为使用 值小于 0.10 的标准辩护。其他人则使用含糊的语言,将 值小于 0.10 的结果描述为“边缘性”或“提示性”发现。我们并不认为第一个理由有说服力。就第二种做法而言,ASR 是我们学科的顶级期刊,我们需要发表的是强有力的证据,而不是“提示性”的发现。
2. 中介效应检验
我们接收到许多投稿,试图通过简化版的 Baron 和 Kenny (1986) 步骤来检验中介效应。作者通常采取以下步骤:首先,建立一个包含自变量和控制变量的模型;接着,再建立一个加入中介变量的模型。如果自变量的系数减小或变得不显著,作者便得出结论,认为主要效应已被中介变量所中介。
这种方法存在几个问题。最常见的问题是,作者未能对系数大小的差异进行显著性检验。这个步骤对于判断是否发生了中介效应是必要的。自变量的系数可能会减小,甚至变得不显著,但仍可能处于仅由随机因素引起的波动范围内。正如 Gelman 和 Stern (2006) 所指出的,统计显著性的变化本身可能并不具备显著性。
有时,作者可能会像 Sobel (1986) 检验一样进行显著性检验,以判断系数变化是否具有统计显著性,这无疑是一个正确的方向。近年来,不少学者开发了改进 Sobel 检验的新方法,这些方法可以在不同的软件包中实现,并且能在一定程度上提高检验效果。其中一些方法解决了我们将要提到的下一个问题,即在非线性模型(如 logit 和 probit 模型)中,无法仅通过观察模型间系数大小的变化来判断中介效应。
有关更详细的信息,可以参考 MacKinnon (2008),Imai 等 (2010),Karlson 等 (2012) 以及 Vanderweele (2015,2016) 的研究。我们建议,未来计划在 ASR 期刊上发表文章的作者,针对中介效应的检验应采用更为复杂和精确的方法。
3. 分类因变量模型中的交互作用
在非线性模型中使用交乘项系数的 统计量 (及相关的 值) 来检验统计交互作用,已经引发了各种问题。Allison (1999),Williams (2009) 等学者集中讨论了其中一种类型的问题 (例如,组间残差方差的异质性),而 Mood (2010),Breen 和 Karlson (2013),Long 和 Mustillo 等则关注了一系列其他问题。问题已经明确:不要使用交互作用项的系数来推断分类模型 (如 logit、probit、Poisson 等) 中的统计交互作用。每位学者都推荐了不同的检验交互作用的方法。我们建议未来的作者根据具体的应用情境,选择合适的检验方法。
4. Multivariate VS Multivariable
许多学科的学者常常交替使用这些术语来描述他们的模型,但它们并不意味着相同的内容。社会学家并不是唯一会如此使用这些术语的群体。将这些术语交替使用可能会导致对所估计模型类型的混淆。
Simple regression (简单回归) 是指包含一个自变量和一个因变量的模型。Multiple regression (多元回归) 是指包含多个自变量和一个因变量的模型。Multiple regression 的另一个术语是 Multivariable regression (多变量回归)。
而 Multivariate model (多变量模型) 则与上述模型完全不同:Multivariate model 是指包含多个因变量的模型,例如因子分析、结构方程模型或潜增长曲线模型。鉴于这些术语在已发表的文献中经常被混淆,许多人认为这种区分已变得随意或仅是语义上的,但我们认为保持这一区分仍然很重要,原因在于 Multivariate statistics (多变量统计学) 本身是一个发展成熟的统计学分支,通常作为完整课程的主题,并且这一术语的使用在其他学科中也是一致的。这一点尤为重要,因为 ASR 上的文章被广泛阅读,涵盖的不仅仅是社会学领域。
5. 测量
许多作者需要比目前更认真地对待测量问题。我们经常收到一些投稿,其中关键变量 (无论是自变量还是因变量) 只是作者的临时创作,未充分考虑测量科学的严谨性。对于简单、直接的概念,这种策略可能是可以接受的,但对于更复杂的内容,当可能、合适或相关时,优选已验证的测量方法或有文献支持的测量方法。
一个较为次要但仍值得关注的问题是,一些作者在使用经过验证的量表时,方式与已发表的验证工作不一致。如果一个经过验证的量表有 12 个项目,这些项目在验证研究中是按 1 到 4 的评分标准进行编码并求和的,那么除非有合理的解释,使用者应当按原方式处理该量表。我们经常收到一些投稿,其中作者会从量表中挑选部分项目,或者更改项目的编码方式,或者修改求和方案。这些任何改变都可能削弱量表的有效性。
6. 方法部分
在方法部分的组织和程序细节方面,仍然有提升的空间。许多投稿未能充分提供关于数据收集程序、样本量、缺失数据、剔除数据、所估计模型的类型及其选择理由、问卷的响应率、选择效应、变量测度等方面的足够细节。有时,这些信息虽然有提供,但往往不是集中展示在方法部分,而是零散分布在方法和结果部分,或被放置在附录中,难以一目了然地呈现。最容易让读者跟随的论文,通常是在方法部分紧密链接前文,并且方法内容有条不紊地展开——从数据、变量到模型的描述清晰连贯。
总之,社会学在定量研究方法的广度和复杂性上已有显著进展,为解答我们领域中的重要问题提供了丰富的手段。我们提出这些建议,旨在帮助学者在选择合适的方法和更好地展示结果时,尤其是在目前缺乏明确指南的领域中做出明智决策。
转自连享会微信公众号,仅作学习交流,如有侵权,请联系本站删除!