原创 刘宇丹 易侕科研 2022-04-25 09:30
假设检验结果、统计学差异、P值,这些看似基础而常见的概念,想必对大家来说都不陌生,可是在我们习惯性地依赖P值以及0.05的检验标准的时候,是否思考过,所谓的检验阈值是依据统计学经验设定的,这种经验是否适用于本人当前的研究呢?这也是越来越多的研究者们在思考的问题。这篇文章将会通过简洁使用的方式带你了解P值、用对P值,从而达到提升文章质量的目的。
我们真的了解P值吗?
在我们的工作中,做出统计推断后,如果发现有显著性差别,通常要计算P值。
P值定义:在零假设成立的条件下,出现统计量目前值及更不利于零假设数值的概率。
P值意义:当零假设成立时,我们若拒绝零假设,所犯的假阳性概率的错误就是P。
换句话说,如果P值较小,表明“不大可能”犯假阳性错误,于是拒绝零假设;反之,如果P值较大,表明“颇有可能”犯假阳性错误,因此不能拒绝零假设。
那怎样算“P值较小”和“P值较大”?通常我们根据问题的背景,规定一个“小”的概率α,若P值小于α,就认为“P值较小”,若P值不小于α,就认为P值较大。通常取α=0.05或0.01以保证犯假阳性错误的概率不超过0.05或0.01。这个α就是我们广泛使用的检验水准。
为什么要对P值进行校正呢?
在多重假设检验中,p值明显不适用。如前文所说,P值的阈值是人为规定的,无论是多小的P值,也仅仅能代表结果的低假阳性,而非保证结果为真。比如检验10000次,得到假阳性结果的次数就会达到 5%*10000=500次。即使P值已经很小(比如0.05),也会被检验的总次数无限放大。
这时候我们就需要引入多重检验来进行校正,从而减低假阳性结果在我们的检验中出现的次数。
SCI的世界里,如何进行P值校正?
首先可以确定的是,P值校正与否,都能发出文章。在展示结果的时候,有时会遇到太多个差异变量,而不知道怎么展示,那么作为研究者可以将标准定严格些,也是为了更方便地讲出自己的故事,因此P值校正也属于调整参数的方法中的一种。此外,在写文章时,我们也需将计算过程陈述清楚。
P值校正的主要实现方式有两种,我们将通过下面两篇文献来认识和学习。
Bonferroni 校正
Bonferroni 校正法是通过对p值的阈值(例如我们常用的0.05)进行校正来实现消除假阳性结果,它拒绝了所有的假阳性结果发生的可能性,因此该校正法也可以称作是“最简单粗暴有效”的校正方法。
Bonferroni 校正的公式为p*(1/n),其中p为原始阈值,n为总检验次数。
OK,我们来看一篇使用了Bonferroni校正法的文献。
文章标题“Cardiometabolic health in offspring of women with PCOS compared to healthy controls: a systematic review and individual participant data meta-analysis”,中文译为“多囊卵巢综合征妇女后代与健康对照组的心脏代谢健康:系统综述和个体参与者数据荟萃分析”。发表在Human reproduction update,影响因子为IF 15.61。
该研究为荟萃分析,以母亲确诊为PCOS的儿童为实验组,母亲未患病的儿童为对照组,目的是评估PCOS女性患者的后代的心脏代谢特征是否不如健康对照组的后代。
以下是文中关于P值Bonferroni校正的描述:
Owing to the number of statistical tests we performed, a Bonferroni correction for multiple testing (Chen et al., 2017) was applied. Three independent cardiometabolic outcomes were tested: anthropometrics, insulin resistance and lipid profile: outcomes were divided in these three clusters. Therefore, the significance level P = 0.05 was divided by three, which provides a significance level corrected for multiple testing: P = 0.017.
译文:由于我们进行了大量的统计检验,因此使用了Bonferroni校正进行多重检验(Chen等人,2017年)。测试了三种独立的心脏代谢结果:人体测量、胰岛素抵抗和脂质谱,结果被分为这三组。因此,将显著性水平P = 0.05除以3,得到多重检验校正的显著性水平P = 0.017。
在文章的表格注释中也进行了简短说明(黄字部分)。
That's all. 以上就是这篇文章涉及到P值校正的部分,看起来也没有那么复杂吧,但是这种方法也存在问题:Bonferroni 委实太过严格,被校正后的阈值拒绝的不只有假阳性结果,很多阳性结果也会被它拒绝。
值得一提的是,在R的计算中,用Bonferroni法实现校正的公式是校正后的P值=P×n,由此的得到的校正后P值则可仍然以0.05为检验标准。
FDR(FalseDiscovery Rate) 校正(假发现率校正)
FDR又叫做q值,q值是对p值的再统计。相对Bonferroni 来说,FDR温和得多,这种校正方法不追求完全没有假阳性结果,而是将假阳性结果和真阳性的比例控制在一定范围内。
在FDR(q值)的计算方法中,BH(Benjaminiand Hochberg)法是最常用的,可以总结为以下两个步骤:
step1:将总计m次检验的结果,即m个P值按由小到大进行排序
step2:公式:q = p * (总数m次/p的位次)
同样的,来看一篇使用BH法校正P值的文献。
标题为“A metabolome-wide association study in the general population reveals decreased levels of serum laurylcarnitine in people with depression”,译为“一项全代谢组相关性研究显示抑郁症患者血清月桂肉碱水平下降”。文章发表在Molecular psychiatry,影响因子为IF 15.992。
研究设计属于横断面,以有抑郁症状的参与者为实验组,无抑郁症状的参与者为对照组,进行了一项全代谢组相关性分析,目的是调查血清代谢组与抑郁情绪之间的联系。
文中对于P值BH校正的描述为:
To account for multiple testing, two-sided p values were adjusted according to the method of Benjamini/Hochberg (B/H) to control the false discovery rate (FDR). An association was considered to be statistically signifificant, if its corresponding B/H-adjusted p value was below 0.05, corresponding to an FDR of 5%.
考虑到多重检验,将双侧p值按Benjamini/Hochberg (B/H)法进行调整,以控制错误发现率(FDR)。如果相应的B/ h调整p值低于0.05,FDR为5%,则认为有统计学意义。
在文章的表格注释中同样进行了简短说明(黄字部分)。
图片
看到这里,相信细心的你已经注意到,BH校正法计算出的校正后p值会出现相同值,为什么?
这和R语言的算法有关。我们可以借着这个例子说明一下——如果某一个p值所对应的FDR值大于前一位p值(排序的前一位)所对应的FDR值,则放弃公式计算出来的FDR值,选用与它前一位相同的值。因此也就使校正后的p值(即q值)停在了最大结果。
图片
为了便于理解和记忆,我们不妨对p-value(adjusted p-value)和p-value的特点进行以下总结:
P-value和Q-value都是分布在[0,1]范围内的实数。
在不考虑相等值的情况下,由P-value 列表计算得到Q-value后,各个元素的大小排序不发生改变。
校正后,与P-value列表中的相对应Q-value,只会变大(或不变),不会变小(但不会超过1)。
校正所得的Q-value大小,和列表中的元素的个数也有关系:即,不同的总体元素个数下,同一个P-value经校正往往会得到不同的Q-value。
如果同时进行的假设检验次数很多时,只使用P-value进行讨论的稿件,会被审稿人质疑作者的统计学基础。
如有侵权,请联系本站删除!