“显著性”和“不显著性”间的差异本身并没有统计学意义
摘要:
通过汇报统计的显著性或不显著性来总结统计比较是很常见的。在这里,我们讨论这种汇报的一个问题,即统计显著性的变化通常本身并不具有统计显著性。例如,只需要一个很小的变化就可以将估计从5.1%的显著性水平移动到4.9%,从而使其具有统计显著性。相反,我们要指出的是,即使显著性水平的巨大变化,也可能对应于潜在数量的微小、不显著的变化。我们所描述的错误在概念上不同于其他经常被提及的问题——统计显著性与实际显著性是不一样的,将结果分为显著和不显著的两种方法鼓励忽略观察到的差异,而偏爱通常不那么有趣的无差异原假设,并且任何宣布显著性的特定阈值都是任意的。我们对这些现象感到不安,但我们不打算贬低它们的重要性。相反,我们的目标是让人们注意到这种额外的解释错误。我们用一个理论实例和两个应用实例来说明。这种统计错误的普遍存在使我们建议学生和研究者更加意识到“显著”和“不显著”之间的差异本身在统计上并不显著。
关键词:
假设检验;元分析;两两比较
作者简介:
Andrew Gelman, 哥伦比亚大学
Hal Stern, 加州大学
文献来源:
The American Statistician, 60(4), 328-331.
导论
一个常见的统计错误是通过统计显著性来总结比较,然后在显著和不显著的结果之间划出明显的区别。通过统计显著性进行总结的方法有许多缺陷,其中大多数在常规的统计学课程中都有涉及。但我们认为其中一个不太为人所知,我们指的是统计显著性的变化本身并不显著。组均值、回归系数或任何其他统计量的微小变化可能既不具有统计显著性,也不具有实际重要性,但这种变化可能导致该量相对于零假设的显著性水平发生很大变化。
本文并不试图对显著性检验进行全面的讨论。学界有过几次这样的讨论,例如Krantz在1999年曾经发表的文章。事实上,依赖统计显著性汇报的许多缺陷似乎是众所周知的。例如,到目前为止,几乎所有的介绍性文本都指出,统计意义并不等于实际重要性。如果一种药物的估计效果是将血压降低0.10,标准误差为0.03,这在统计学上是显著的,但在实践中可能并不重要。相反,标准误差为10的估计效应为10,在统计上不显著,但在实践中可能很重要。此外,统计学课程引论也会告诉学生,严格遵守某个特定阈值(比如5%的显著性水平)会带来风险。类似地,大多数统计学家和许多研究者者都熟悉这样一个概念,即使用二元的显著/非显著决策规则鼓励从业者忽略潜在的重要观察差异。因此,从这一点出发,我们只关注不太为人所知但同样重要的错误,即通过比较两个或多个结果的统计显著性程度来比较它们。
理论实例:比较两个实验的结果
假设有两个独立的研究,效应估计和标准误差分别为25±10和10±10。第一项研究在1%的水平上具有统计显著性,而第二项研究在统计上根本不显著,距离0只有一个标准误差。因此,很容易得出结论,这两项研究之间存在很大差异。然而,事实上,这种差异甚至不接近统计显著性:估计差异为15,标准误差为14。
在比较不同信息水平的估计时,还会出现其他问题。假设在我们的例子中存在第三个独立研究,其样本量大得多,产生的效应估计为2.5,标准误差为1.0。这第三项研究与第一项研究达到了相同的显著性水平,但两者之间的差异本身也是显著的。两者都发现了积极的影响,但程度大不相同。第三个研究是否重复了第一个研究?如果我们只关注显著性的判断,我们可能会说“是”,但如果我们考虑被评估的效果,我们会说“不是”,正如Utts(1991)指出的那样。事实上,第三项研究发现的效应量与第二项研究的效应量非常接近,但现在由于样本量的原因,它获得了显著性。
统计显著性的汇报通常与决策有关。例如,如果上一段中的两个估计涉及降压药的疗效,那么人们可能会得出结论,第一种药物有效,第二种药物无效,从而使它们之间的选择变得显而易见。但这个显而易见的结论合理吗?这两种药物似乎彼此之间没有明显的不同。对缺乏统计意义的一种解释是,进一步的信息可能会改变一个人的决策。我们的重点不是我们反对观察统计显著性,而是比较统计显著性水平是个坏主意。在两种治疗方法之间进行比较时,人们应该看差异的统计显著性,而不是他们显著性水平之间的差异。
应用实例:同性恋者与兄弟姐妹的数量
这篇题为“生理与非生理的哥哥与男性的性取向”的文章(Bogaert 2006)最近出现在《美国国家科学院院刊》上,并被几家主要的科学新闻机构转载(Bower 2006; Motluk 2006; Staedter 2006)。正如《科学新闻》上的文章所说:“Bogaert说,无论一个人在童年时期与兄弟姐妹相处的时间长短,其亲生哥哥的数量与他成为同性恋的可能性相关。没有其他的兄弟姐妹特征,比如姐姐的数量,显示出与男性性取向的联系。”
我们对此很好奇——为什么是哥哥而不是姐姐?这篇文章引用了Blanchard and Bogaert(1996),他们的图表如图1所示,并给出了以下总结:“显著的β系数在统计上与零不同,当为正值时,表明同性恋的可能性更大。只有和参与者一起长大的亲生哥哥的数量与性取向有显著关系,而其他兄弟姐妹特征(包括和参与者一起长大的非亲生兄弟的数量)与性取向没有显著关系。”
图1来自Blanchard和Bogaert (1996): (a) 302名同性恋男性和302名匹配的异性恋男性的哥哥和妹妹的平均数量,(b)从这些数据对家庭变量的性取向进行逻辑回归。图表数据说明同性恋者与哥哥数量的关系比与姐姐数量的关系更强。然而,没有证据表明这种差异在统计上是显著的。
结论似乎是基于显著性(对于哥哥数量的系数)与不显著性(对于其他系数)的比较,尽管系数之间的差异在统计上似乎并不显著。我们不能十分肯定——这是一个回归分析,不同的系数估计值并不是独立的——但根据这幅图,我们强烈怀疑哥哥的数量系数和姐姐的数量系数之间的差异是否显著。
批评这种类型的分析合适吗?毕竟,这些数据与只有哥哥的数量起作用的假设是一致的。但这些数据也与只有出生顺序(哥哥姐姐的总数)起作用的假设相一致。(同样,我们不能确定,但我们从图表和表格中强烈怀疑是这样。)考虑到95%的置信水平是标准的(我们非常确定,如果结果在该水平上没有统计显著性,这篇文章就不会发表),该规则应该一致地应用于与数据一致的假设。我们在这里不是以生物学专家的身份,而是以统计学家的身份发言:这篇发表的文章及其媒体的接受程度表明,人们毋庸置疑地接受了一个结果(只有哥哥的数量有影响),如果把这个结果恰当地表达为一种比较,最好是用“暗示性”来形容。
例如,作者可以这样写,样本中男性的性偏好在统计上与出生顺序有显著的关系,此外,与哥哥的数量的关系比与姐姐的数量的关系更强,但后者的差异在统计上并不显著。统计分析可以作为回归进行,如图1中的表所示,但将前两个预测因子线性转换为它们的和和差,这样就有一个兄弟姐妹数的系数和一个兄弟姐妹数减去姐妹数的系数。
讨论
在应用统计学中,根据其在5%水平上的统计显著性来评价推论是标准的。近年来出现了报告置信区间而不是p值的趋势,假设检验的中心性受到了挑战,但即使使用置信区间,检查它们是否包含零也是很自然的。因此,这里提到的问题不能简单地通过使用置信区间来解决。统计显著性在某种程度上是评估统计结果可靠性的一种方法。然而,正如我们所看到的,“X在统计上是显著的,而Y不是”这样的比较可能会产生误导。
本文转载自微信公众号“Sociology理论志”。
转自:“刘西川阅读写作课”微信公众号
如有侵权,请联系本站删除!