统计学入门:如何理解置信区间
2023/9/14 8:58:12 阅读:36 发布者:
什么是置信区间
置信区间是指由样本统计量所构造的总体参数的估计区间。
置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。
相关概念
置信水平(Confidence level)是也称为置信度、可靠度,或置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的,是指正确的概率。(1-α 为置信度或置信水平其表明了区间估计的可靠性)
显著性水平(significance level )是估计总体参数落在某一区间内,可能犯错误的概率为显著性水平,用α表示。(在正态分布表中,表中的数值是表示某点位置开始左侧的面积,例如x=0,面积为0.5表示小于0的概率。当显著性水平α为某一值时,表示希望正确的区间所围成的面积为1-α,此时可查α/2所对应的点,也可以差1-α/2所对应得点)
置信界限(confidence limit)是对单侧置信区间中的界限以及双侧置信区间的上限(upper confidence limit,ucl)、下限(lower confidence limit,lcl)的统称。
对于任意参数θ在可能的取值范围内,P{θ1<θ<θ2}≥1-α,则称随机区间(θ1,θ2)是参数θ的置信水平为1-α的置信区间,θ1和θ2分别称为置信水平为1-α的双侧置信区间的置信下限和置信上限,1-α称为置信水平。
举例来说,如果在一次临床试验中某评价产品的灵敏度为75%,而置信水平95%(1-0.05)的置信区间是(67%,82%),那么67%置信区间的下限,82%是置信区间的下限,显著性水平是0.05,置信水平是95%,那么产品的真实灵敏度有百分之九十五的机率落在67%和82%之间。
举例
有某量服从正态分布如下:
X∼N(μ,σ2)
其中μ未知,σ已知。为了估计μ,对其进行采样,样本大小为n,得到样本均值:
可以计算出以μμ为中心,面积为0.95的区间范围,如下图:
即:
以 1.96σ/sqrt(n) 为半径划出的区间即为95%置信区间,即随机抽取一个样本,有95%的可能性落在该区间内。
在评估一个量的大小时,我们既希望估得足够准确(区间足够窄),又希望估计值足够可信(置信水平高)。但是可以很直观地看到,这两个要求是相互矛盾的。人们从经验中得知95%置信水平使得估计精度和可信度达成了最佳的平衡关系,因此95%置信水平成为统计中一个约定俗成的习惯。
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!