投稿问答最小化  关闭

万维书刊APP下载

统计学的P值危机

2022/7/12 13:06:05  阅读:211 发布者:

1925年,英国遗传学家兼统计学家罗纳德·费舍尔出版了《研究者的统计方法》一书,在当时看起来并不会“畅销”,但在其后的近100年中指导着几乎所有研究人员的统计分析——只有P<0.05,才意味实验结果有统计显著性。但是统计显著性的概念以及支撑它的P的阈值具有相当大的局限性,而正是这样的缺陷,让整个科学界陷入了一场危机。

最近,发表在《环球科学》11月刊的文章《P值危机:统计学需要一场变革》,为我们讲述了P值危机。

P的阈值0.05的产生

在《研究者的统计方法》书中,关于P的阈值,费舍尔建议(这次危机的根源,各种严格统计数学方程中非数学产生的存)。。。。。作为研究指南,研究人员可以考虑将P值设为0.05。“在判断某个偏差是否应该被认为是显著的时候,将这阈值作为判断是很方便的”,费舍尔对于这一点专门论述道,并且建议不要把时间花在阈值大于0.05的结论上。因此,这一建议诞生了所谓的统计学显著性,达成“显著”的数学定义。

但在费舍尔退休后,有人问他职业生涯最遗憾的是什么, “当初不该提出0.05”。

0.05的缺陷

在很多研究领域中,p值小于0.05被认为是实验数据可靠的标准。但在实验经济学、生物医学研究,特别是心理学研究中,陷入了一场科研实验可重复性危机。有关 p 值的讨论,也是从生命科学、例如医学等领域所产生的。

AP值经常被误解,统计的显著性不等于实际的显著性。今年3月份Nature发表了三个统计学家的一封公开信《科学家们起来反对统计学意义》(Scientists rise up against statistical significance),标题如战斗檄文令人振奋。在文章发出来后不到24h就得到250多人签名,一星期后,共收到800多份签名,签名者包括来自50多个国家的统计学家、临床和医学研究人员、生物学家和心理学家,除南极洲没人以外,所有大洲都有人签名。

他们提出:“我们永远不应该仅仅因为P值大于0.05之类的阈值而得出“没有差异”或“没有关联” ,或者等价,因为置信区间包括零。我们也不应该断定两项研究之间存在冲突,因为一项研究结果具有统计学意义,另一项则没有。这些错误会浪费研究工作并误导政策决策。”

此外,为了更好的重复性问题,也有学者通过复杂的统计模拟(主要是贝叶斯思想),建议将目前的显著性significant”阈值降到0.005,而之前的0.05只有提示意义“suggestive”。那目前已发表的论文当中,那将近三分之一将要归为“仅有提示意义”。。。

然而,似乎多数人是热烈欢迎这样的改变,在过去的20177月,Nature就把显著性水平从P<0.05降到P<0.005对受访者进行调查时,发现竟有69%人的表示支持!2018年,由72位科学家组成的小组在《自然·人类行为》上发表了一篇名为《重新定义统计意义》的评论文章,赞同将统计显著性的阈值从0.05调整到0.005。这篇文章的主要作者本杰明认为:“这是一个不完美的短期解决方案,但可以立即实施。我担心的是,如果我们不立即做这事,我们将失去变革的动力,而我们最终将花费所有的时间争论理想化的解决方案。”当然有支持有反对,反对的声音主要有两点:第一、显著水平降低会极大增加研究所需的样本量,增加研究成本;第二,科学研究应该是多元化,不应该用单一p值评论研究的价值。

发表公开信的三位统计学家也强调,他们不是在呼吁禁止P值。不是说P值不能在某些特定的应用程序中用作决策标准,而是他们与过去几十年的许多其他研究结果一样,呼吁停止以传统的二分法使用P值——来决定结果是反驳还是支持一项科学假设。

避免这种“二分法”的一个原因是,所有的统计数据,包括P值和置信区间,都会随着研究的不同而自然地发生变化,并且往往变化非常大

B、传统方法最大的问题是:研究结果不显著,通通都没有报告。在英文有个词叫 ,摘樱桃。什么叫摘樱桃?摘水果,水果熟的才摘,把熟的水果送到水果摊上,大家在水果摊上看到的水果,都是漂亮的水果,其实有很多糟糕的水果都不见了。我们在统计上也是,大家看到的都是显著的结果,不显著的结果没有人看到。研究者因为结果必须显著,期刊才会刊登,所以只挑选显著的结果报道,这就是cherry-picking。所以美国统计学会ASA 曾在2016年发表的声明中第四点:正确的统计推论,必须要“full reporting and transparency”。

C. 另一些人则认为,重新定义统计显著性没有好处,因为真正的问题是阈值始终存在。今年3月份,瑞士巴塞尔大学的流行病学家、动物学家瓦伦丁·阿姆莱因(Valentin Amrhein)与美国西北大学的统计学家、市场营销专家布莱克利·麦克沙恩(Blakeley McShane)在《自然》杂志上发表了一篇评论文章,主张放弃统计学显著性的概念。他们建议将p值作为一个连续变量,并将置信区间(confidence intervals)重命名为“相容性区间”(compatibility intervals),以反映它们彰显的实际意义:评估数据的相容性,而不是置信度。

不那么科学的“统计学显著”

研究 ESP (超感官知觉)时会用到比例(proportion)这个统计值。这里采用大写的 P 来代表比例,不要跟小写的"p "p 混淆。在 p 值的争论里,有一篇研究 ESP 的心理学文章被严重批评。文章中提到了一个实验,让各种图片随机出现在荧幕的左边或者右边,然后让受测者来猜图片会出现在哪边。我们知道如果受测者的猜测也是随机的,也就是没有 ESP 的效应,则猜对的或然率应该是一半一半,算比例应该是差不多 P = 0.5,这里比例 P = 0.5 就是我们的虚无假设。但这个实验,实验者是一位知名心理学教授,他让受测者用各种意志集中、力量集中的办法,仔细地猜会出现在左边还是右边。结果发现,对于某种类型的图片--不是所有图片,而是对于某些类型的图片,特别是色情图--受测者猜对的比例,高达 53.1 %,而且在统计上是显著的。所以结论就是:有 ESP,有超感官知觉。

还有一个臭名昭著的例子是“姿态能量”的概念,某篇论文声称,自信的肢体语言不仅会改变你的态度,还会改变你的激素分泌,后来这篇文章还被作者自我否定了。美国哥伦比亚大学的统计学家安德鲁·格尔曼(Andrew Gelman)在他博客写道:“一篇可疑的关于气候经济学影响力的论文,多年之后发表了勘误声明,最终被修正的错误结论几乎与原论文的数据点一样多,这可不是开玩笑!但勘误声明中这些更正都不足以让作者改变结论。” 格尔曼还说道:“嘿,只做理论上的工作就可以了,但不需要用数据分散我们的注意力。

甚至,关于“统计学显著”上,美国加利福尼亚大学洛杉矶分校的名誉教授、统计学家和流行病学家桑德·格林兰德(Sander Greenland)嘲讽说:“你可以用统计学方法来证明任何事情。

“后P<0.05的时代”

18122日,美国政治学顶级学术期刊《政治分析》在其官方twitter上宣布,从2018年开始的第26辑起禁用p值。据该刊之声明,其主要原因是:“p值本身无法提供支持相关模式或假说之证据。” 顶级政治期刊的“禁p”想必会引起连锁效应,导致其他刊物跟进。

Basic and Applied Social Psychology (BASP)也直接宣布禁用p值,比较有意思的是当BASP的主编被Nature问道,“没了P值怎么办时”,主编“淡定”地回答“我也不知道有什么样的统计方法可以取代P值”。

目前而言,无论是调整显著性水平,抑或是全盘否定P值,都尚在争论。如何能够更合理地找个一个替代解决方案,仍然需要很多尝试。

转自:斐然SCI学术服务

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com