投稿问答最小化  关闭

万维书刊APP下载

学术写作中关于“标准差”和“标准误”

2024/6/18 17:52:47  阅读:63 发布者:

标准误其实就是标准差的一种,不过二者的含义有所区别:

标准差计算的是一组数据偏离其均值的波动幅度,不管这组数是总体数据还是样本数据。你看standard deviation,说的就是偏离,只是在翻译为中文时,失去了其英文涵义。

标准差(Standard deviation, SD σ)能反映一个数据集的离散程度。简而言之,它是数据集中各个点与平均值的距离。标准差低则代表数据集当中的值接近均值。标准差高则有时表示数据中存在异常值(或非常极端的度量单位造成的)。

标准差高不一定不好,标准差低也不一定更好。这是因为标准差本身不会体现任何有关数据质量的信息,只会揭露它们之间的差异性以及其相对于平均值的差异。

标准差 (Standard deviation, SD) 与标准误 (Standard error of the mean, SEM)

要了解标准误,重要的是要了解总体和样本之间的差异。总体包括某个群体的每个成员,而样本仅代表总体中的少数成员。当进行实验时,很可能会从样本中收集数据并使用它来推断有关于整个总体的详细信息。而标准误就是用于阐明样本的平均值与真实平均值(即总体平均值)的接近程度。要找到标准误,就需要将标准差除以样本量大小的平方根。因此,随着样本量变大,标准误变小,样本的平均值越来越接近真实平均值。相反,标准差和样本量大小无关。

标准误,是衡量的是我们在用样本统计量去推断相应的总体参数(常见如均值、方差等)的时候,一种估计的精度。样本统计量本身就是随机变量,每一次抽样,都可以根据抽出的样本情况计算出一个不同的样本统计量值。理论上来讲,从既定的总体中按照既定的样本规模n,穷尽所有可能抽出的样本(不妨假设为NN),根据这些样本可以计算出NN个样本统计量值,把这些统计量值分组绘成直方图(X轴为分组的统计量数值,Y轴为落在某一分组区间内的频率),则这个直方图就反应了样本统计量的分布情况(即抽样分布)。既然是分布,当然就有均值和方差。如果所有可能的样本统计量值的平均值就是总体均值,这就是无偏估计。如果所有可能的样本统计量值的方差在所有用于估计总体参数的统计量里最小,这就是有效估计。因此,抽样分布的标准差(也就是标准误)越小,则用样本统计量去估计总体参数时,精度就越高。所以,你明白为什么叫标准误(standard error)了。一般意义上讲,standard error反映的是用样本统计量去估计总体参数的时候,可能发生的平均差错

不妨这么理解吧,如果总体平均值是160,抽样误差是5,就是说用抽得的样本平均数去推断总体平均数时,平均差错可能在5左右;如果抽样误差是3,精度当然就比5要高啦。不同的总体、不同的样本规模,这个精度当然是不同的。如果总体的变异本身很小(也就是总体标准差小),样本规模越大,这种情况下精度当然就高啦。另外,根据大数定律,当样本规模大到一定程度的时候,不管总体是什么分布,样本平均数都会近似服从正态分布,这就为计算抽样误差(标准误)提供了理论依据。

最后总结:标准差还是标准误,注意看其英文原意,就可以把握个八九不离十了。本质上二者是同一个东西(都是标准差),但前者反映的是一种偏离程度,后者反映的是一种差错,即用样本统计量去估计总体参数的时候,对其差错大小(也即估计精度)的衡量。而要了解使用哪种统计方式,则首先要考虑的是你要使用什么样的数据去说明什么问题。如果要揭露数据的离散程度,请使用标准差。如果想揭露取样的准确性,请使用标准误。

医迈通微信公众号,仅作学习交流,如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com