从初中开始教的正态分布真的很重要吗?真正懂统计学的人应该对此毫无疑问.先不用说高深的统计学理论,充分了解正态分布是可以灵活地在统计数据中使用不同的假设检验方法、了解p值和置信区间的前提。在此,将介绍各位需要了解的有关正态分布的所有信息。
1
Part.1
引入
“正态分布”有时被称为“常态分布”,这两个名称还不是很直观,但是如果将名称都改为“正常分布”,就变得很容易理解。而这也是“正态分布”的本质含义。它是如此的普遍,基本上描述了所有常见的事物和现象:身高、体重、考试成绩、家庭收入等等。换言之,这些指标背后的数据具有中心密集、两边稀疏的特点。以身高为例,服从正态分布意味着大多数人的身高在人口平均身高附近上下波动,而矮个子和高个子的人就很少见。
2
Part.2
连续型随机变量研究区间概率
既然你已经了解了正态分布的基本思想,那么让我们看看在实际应用程序中需要学习的要点。首先,正态分布属于“连续随机变量分布”的范畴。那对于连续随机变量而言,我们只关注“区间概率”,而不关注“点概率”,但这具体是为什么呢?
让我们通过一个例子来理解。假设随机变量X指的是“上海成年男性的体重”,因为它理论上可以取任何正数,我们将其视为连续随机变量,也就是可以取某个区间或者数轴上的任意一个值的变量。现在,让我们首先考虑如何计算P(X=1.87),也就是高度恰好、正好、完全等于1.87的概率,即所谓的“点概率”。极端地说,如果随机变量Y是区间[0,1]中的任意一点,那么Y可以有多少个值呢?答案是无数多个,因此Y取特定值的概率可以认为是1除以无数,即0。因此,这里得出一个非常重要的结论:连续随机变量取特定值的概率为0。因此,对于连续随机变量,我们通常不看取特定值的概率,而是关注在一定区间上的取值,比如身高在1.70和1.80之间的概率。
3
Part.3
概率密度函数
概率密度对于初学者来说可能是最难以把握的概念,我们不能直接讲概率吗?为什么需要生成一个“密度”的说法?事实上,如果没有大量的数学基础,理解这个概念并不是很容易。你可能对单词和公式不熟悉,但我们特别熟悉的那条“钟形曲线”,就是正态分布的概率密度曲线。我们之前已经讨论过区间概率,因此在这里我们可以根据区间来理解概率密度曲线:曲线越高,区间的概率越密。这可以类比地理解为在同样大小的房子里,这个房间里的人数越大,就越拥挤(密集)。除此之外,关于概率密度函数的另一个重要一点是积分(面积)等于概率。随机变量 X 在特定区间内的概率,例如 (a, b),即 a的概率,等于密度曲线在该区间下方圈起来的面积。在数学上的表述便是密度函数f(x)在区间(a, b)上的积分。这个微小的细节实际上决定了在未来你是否理解假设检验当中所谓的“拒绝域”。
下图中的三条曲线便是概率密度函数f(x),不同形式的概率则是曲线下方对应的区域。在这里,数学基础较差的同学不需要深入挖掘积分的计算过程,但是都应该熟悉这三种情况和对应的表达式。
4
Part.4
均数和标准差
如前所述,我们不需要特别注意概率密度函数和正态分布的积分,那么真正需要注意什么?是均值和标准差。这里需要强调的是,当我们谈到正态分布时,首先要考虑均值和标准差这两个参数。由于这两个数字是利用正态分布解决未来实际问题的“利器”,因此,每次遇到正态分布,都应该将注意力放在这两个值的获取上,最好能形成条件反射:看到正态分布就想到均值和标准差。
这里简单总结一下正态分布的均值和标准差的特点:
1)概率密度曲线在均值处达到最大值,并且对称。
2) 一旦确定了均值和标准差,正态分布的曲线也确定下来了。
3) X的取值无限延伸到水平轴的左右,曲线的两个尾部也无限逼近水平轴,但永不与水平轴相交。
4) 在特定区间上的取值概率由正态曲线下面积给出,且总面积等于1。
5)均值可以是实轴上的任意值,能够确定一个特定的正态曲线的位置;标准偏差决定了曲线的“陡峭”或“平坦”程度:标准差越大,曲线越平坦、标准差越小,曲线越尖锐。
这是因为较小的标准差意味着大多数变量值与平均值相差不远。因此,大多数值在均值附近是密集的,或者说该曲线涵盖的变量值更少(比如1±0.1涵盖[0.9,1.1]),所以他们都拥挤在一起,图形又薄又高。反之,标准差越大,数据跨度越大,就越分散,所覆盖的变量值也越多(比如1±0.5涵盖[0.5,1.5]),图形就又矮又胖。我们可以从下图当中直接体会一下。从中可以看出,均值决定了曲线的位置,标准差则决定了曲线的胖瘦。绿色、蓝色和黄色的均值相同,它们的位置重叠,但由于标准差不同,形状明显不一样。在我们之前的描述当中有“图越细高,标准差越小,图越平,标准差越大”。从图上来看,图中绿色的标准差是 0.2,比蓝色的标准1差小。
5
Part.5
标准化与查表求概率
接下来,通过一个例子来看看如何使用查表法来计算一个正态分布变量在特定区间的概率。首先我们假设Z先生每天的运动时长是一个服从正态分布的随机变量X。而他近20天运动时长分别为(单位:分钟):26、36、33、28、34、55、25、44、50、65、26、37、43、62、35、38、45、32、28、34。现在我们想知道他运动时长在30到45分钟之间的概率有多大。
首先,将问题用数学的形式表达出来,即:求P(30。我们已经多次强调,如果变量服从正态分布,则需要立即考虑其均值和标准差。在这里,我们进行一些简化,将他最近20天的样本数据视为变量的均值和标准差。因此,我们首先计算20天运动时长的样本均值和标准差。得到它们分别是38.8(分钟)和11.4(分钟)。
接下来,进行标准化。这是一个重要的步骤,也称为z变换。通过标准化,所有服从一般正态分布的随机变量都变成了均值为0、标准差为1的标准正态分布。对于服从标准正态分布的随机变量,我们专门用z表示。因此,求解P(30转换为求解P(-0.77。而进行标准化的具体步骤为:
30→(30-38.8)/11.4=-0.77
45→(45-38.8)/11.4=0.54
X→Z
P(30≤X≤45)=P(-0.77≤Z≤0.54)
并且,在标准化后原始曲线的形状没有改变。也就是说,它的厚薄不会改变,仅仅是位置发生移动。
最后,在完成z变换后,就可以使用z值表找到对应的概率值。下图是一般统计教科书背面的z值表,这个表格也可以在网上找到。
在进行计算之前,让我们复习一下:图中阴影区域代表Z≤z的概率(注意是“小于等于”)。此外,还有两个极为重要的公式需要记住,它们可以从定义推得:①P(Z≥z)=1-P(Z≤z);②P(Z≤-z)=1-P(Z≤z)。
这样,我们便可以将求解P(-0.77≤Z≤0.54)转化为求P(Z≤0.54)–P(Z≤-0.77)的值。换言之,我们只需要找到P(Z≤0.54)和P(Z≤-0.77)的值,再相减就可以。
接下来,让我们正式看看如何查表。先找到Z≤0.54的P值,对比上图,先看表格最左边一栏,找到0.5。接下来,由于0.54的小数点后两位是4,找到最上面一行,在“4”列中得到0.7054。同样,找到Z≤-0.77的P值为0.2206。最后,可以计算出P(-0.77≤Z≤0.54)=0.4848。这大约等于0.5。所以可以说Z先生要花30到45分钟做运动的概率很高,达到50%,占了一半。
通过这个具体的例子,我们进行了全部的求解过程,这是为了便于理解相关概念,提前打好基础,支撑我们去更好地理解假设检验的内容。
6
Part.6
三个百分数
熟悉了Z变换,也学会了查表找出概率,接下来让我们看看在正态分布中广泛使用的三个百分比。我们现在都知道了,服从标准正态分布的变量的均值为0,标准差为1。但除了这两个数字,我们还能得到更多的信息吗?答案是肯定的,而这三个百分数便是其中之一。具体看下图:
理论上,一个正态随机变量可以取无限多个值,其定义域是整个实轴,但实际上,它在取区间[-1,1]内的值就占据了全部取值的68.27%;[-2,2]这区间包含95.45%的值;区间[-3,3]包含99.73%的可能值。上述的1、2和3分别代表1、2和3个标准差(标准正态分布的均值为0,标准差为1)。因此,基于这些,可以推断出:遵循标准正态分布的变量不太可能超过2,更不太可能超过3。这能够带来非常大的变量,能够突然缩小了需要关注的范围,从整个实数域转变为[-3,3]这个区间。而且,虽然我们使用标准正态分布作为描述的示例,但此属性可以完全扩展到具有普通正态分布的变量上,这三个百分数保持不变,但均值和标准差不再是0和1,而是特定分布的均值和标准差。
转自:云导师学术辅导平台
如有侵权,请联系本站删除!