以下文章来源于丁点帮你 ,作者医投
用R整理数据(六)| 定性变量的统计描述
首先,简单回顾一下,抽样分布是针对样本统计量而言的,比如样本均数。在同一个总体中,重复多次抽取样本量为n的多组样本,每一组样本均可计算出一个样本均数,将这些样本均数汇集在一起就获得了所谓的样本均数的抽样分布。我们把样本均数看做一个新“随机变量”,可以对它再求平均数和标准差。
一个简单但非常实用的规律是,无论X的分布如何,如果X的总体均数是
,标准差是
,则其样本均数服从正态分布N(
,
)。需要注意的是,这里的样本要满足比较大的样本量。
所谓“参数估计”,就是通过样本统计量估计总体参数。稍微了解过统计学的同学对“95%置信区间”这个说法肯定不会陌生,不过在此之前,我们先来看看点估计。
1. 点估计
何为点估计?上一篇我们提出抽样调查,指出样本虽然是我们的研究对象,但我们的目标却是总体,如何通过样本推测总体?最简单的就是用样本均数直接代替总体均数,这里的样本均数实际是称作总体均数的一个“点估计”。
除了均数,我们还学习过中位数,经常听说当总体呈偏态分布时要用中位数描述,因此,中位数其实也是总体均数“点估计”的一种。那么问题来了,为什么从来没人说用中位数来估计总体呢?这里因为,即使是点估计,也是有要求的,为了保证估计更加精确,我们总是希望找到那个最好的“点”,而样本均数在某些方面就要强于中位数。
简单而言,要成为一个好的点估计,至少需要满足三个条件:无偏性、有效性和一致性。所谓“无偏”就是要保证你的估计值是在真实的总体均值上下波动的。如果通过A样本计算的样本均数大于总体均数,通过B样本计算的小于总体均数,这就叫无偏。
如果无论怎么抽样,获得的样本均数总是大于(或小于)总体均数,那就不叫无偏估计。有效性指的是估计量的方差尽可能小,而正是这一点样本均数优于中位数。最后一点,一致性是指随着样本量的增加,点估计要有逐步接近总体参数的趋势,换言之,大样本比小样本更加精确,这也是为什么我们总把“扩大样本量”挂在嘴边的原因。
给大家简要介绍点估计及其三个性质是希望大家对估计有一个比较全面、专业的认识,便于后续区间估计和假设检验的学习。
2. 抽样误差
点估计很好理解,但却存在一个重大的缺陷——太过随机。以均数为例,前面我们说了,样本均数依赖于样本的变化,对于同一个总体,两拨样本可能得出两个差异比较大的样本均数,那到底哪个均数估计的更准呢?无从判断。因此,为了增加我们估计的信心,提高推测的把握度,我们还需引入一个新的量——误差。统计学中一般将总体均数与样本均数的差值称为“抽样误差”,用数学式表示即为:
抽样误差=
由此,如果我们知道了一个点估计值以及抽样误差的大小,按照上面的公式我们不就可以计算出总体均数吗?因此,所谓的“置信区间”,本质上是结合了点估计和抽样误差两个方面给出的更全面准确的估计。
在正态分布那一讲中,我们提到过三个重要的百分数,也称“68-95-99.7”法则。以“95%”为例,这个法则告诉我们一个服从正态分布的变量,95%的值都在均数加减两个(更准确是1.96)标准差范围内。有了这个“法宝”,再加上样本均数的抽样分布近似正态的性质,我们就可以来构建置信区间了。
3. 置信区间的构建
前面我们讲了无论X的分布如何,如果X的总体均数是
,标准差是
,则其样本均数
服从正态分布N(
,
)。
由此,结合上面提到的“68-95-99.7”法则,我们就知道,有95%的样本均数
会在总体均数
加减1.96个标准差(
)的范围内(未免混淆,我们把样本均数的标准差称作“标准误”,即
),那么这个用概率怎么表达呢?还记得我们提及的正态分布查表求概率的方法吗?现在要派上用场了。
对于服从标准正态分布的变量Z,我们知道:
P(-1.96 ≤ Z ≤ 1.96)= 0.95
这里的-1.96和1.96是通过标准正态分布的均数(
)加减1.96个标准差(
)计算得出的,即:
P(0 - 1.96 × 1 ≤ Z ≤ 0 + 1.96 × 1)= 0.95
把这个规律延伸至样本均数的抽样分布,我们可以得到下式:
根据上式,有95%的
满足如下不等式:
反复提醒,不要被这里复杂的表达式给吓着,这里的
就是
的标准差(也称标准误)。进一步,我们把总体均数求解出来,就得到了:
最终,我们得到了95%置信区间。因此,当我们抽取一个样本,求出样本均数,在总体标准差(
)已知的情况下,利用上式就就可以估计出总体均数95%的置信区间。
简单回顾一下以上的过程:因为样本均数是服从正态分布的,依据95%法则,我们知道有95%的样本均数是在总体均数加减大概1.96个标准差范围内的,把这句话用概率的数学表达式写出来,稍作整理就得到了总体均数的95%置信区间。
4. 95%如何理解
明白了置信区间的推导,下面我们来看如何理解这里的95%。还得从样本均数的抽样分布讲起,对于一个固定的总体,我们每抽取一个样本,按照上面的计算方法,就可以获得一个95%置信区间,这些区间不完全相同,并且有的可能包括总体均数、有的可能不包括(注意:总体均数虽然未知,但它是确定的,变化的是区间)。
假设我们重复抽样100次,手头就有了100个区间,95%置信区间的含义就是:在这100个区间里,我们几乎可以断定里面会有95个区间是包括总体均数的,因此,如果我们从这100个区间中随机抽取一个,这个区间包括总体均数的概率不就是95%?(想象有100个球,95个黑球,随机抽取的一个球是黑球的概率——95%)。
下面通过一个案例进行更详细的说明。
某公司想知道顾客对自己的满意程度,采用简单随机抽样调查了100名顾客对公司的满意度得分(0-100)。该样本的平均满意度得分为82,按照以往的经验,满意度得分的标准差稳定在20分上下,意味着总体标准差为20。现在想要估计总体顾客的平均满意度得分。
这是一个典型的由样本均数推测总体均数的例子,根据上面的公式我们可以得出总体均数的95%置信区间:[82±3.92],其中3.92=1.96*20/10(注意20是原变量X的总体标准差,不是样本均数的标准差,样本均数标准差是2,也称标准误),这个区间将有95%的可能性包括总体均值。
所谓“包括总体均值”,从区间的角度理解就是样本均数与总体均数的差值要尽可能小。如下图,假设抽取了三组样本,计算了三个样本均数(x1, x2, x3),结合已知的总体标准差(20)我们构造了三个置信区间,所以这三个样本均数与总体均数的误差均为3.92(这里总体标准差已知,而三组样本量n相同,因此三个误差都相同)。
仔细看图,不难发现,由x1和x2构造的区间包括了总体均数;而由x3构造的区间就没有包括。这两者的区别在于x3离均值距离太远(大于3.92),从图中看,即使x3减去了一定的误差后仍大于总体均数,所以由x3构造的95%置信区间不包括总体均数。
因此,置信区间的核心在于样本均数与总体均数距离的远近,如果抽中的样本所计算的样本均数落在上图的阴影部分,则根据该样本得到的95%置信区间都会包括总体均值(x3属于一个临界值,大于x3的那些点构造的置信区间均不会包含总体均数)。
以上,我们以总体标准差已知的情形讲解了总体均数置信区间构建的逻辑。现实情况下,更多时候总体标准差未知而采用样本值代替,但计算思路完全一致。
最后,我们再次总结一下:通过样本构造总体均数的置信区间,目的是尽可能准确地掌握总体均数的信息,即要让构造的区间包括总体均数,而“包括与否”很大程度上在于你获得的样本均数与总体均数之间的距离远近。
很显然,如果人为地扩大这个“距离”,置信区间就越可能包括总体均数,可是扩大距离,意味着区间变长,有时会让所估计的区间变的毫无意义。
比如,某个身高样本的样本均数是1.73米,现在估计这个样本所在总体的均数,如果把误差(与总体均数的距离)设为1米,从而置信区间是[0.73, 2.73]。可以断定这个区间一定能包含总体均数(置信度100%),可是它却提供不了有价值的信息,因为人类的身高都处在这个范围。
由此,我们常说的95%实际上决定了“误差距离”的概念。对照上图,如果把阴影部分向中心挤压,缩小其面积,则样本均数与总体均数距离缩小,获得的置信区间一定更加精确,可是由于阴影部分面积减少,概率降低,置信水平就会下降。因此,置信区间实际上是在“把握性(包括总体均数)”和“估计精确度”之间做的权衡。
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!