医学统计学基本知识

2022/11/17 10:15:18　阅读：216　发布者：

统计学基本知识

•总体（population）

指同质的研究对象中所有观察单位研究指标变量值的集合。总体通常限定于特定的时间与空间范围之内，且为有限数量的观察单位，称为有限总体；有时总体是假设的，没有时间和空间限制，观察单位数是无限的，称为无限总体。

•样本（sample）

医学实践与研究中，要直接研究无限总体通常是不可能的，即使是有限总体，由于人力、物力、时间、条件等限制，要对其中每个观察单位进行研究或观察，有时也是不可能的，也不必要。而只是从总体中随机抽取部分观察单位，其变量实测值构成样本，目的用样本指标推断总体特征。这种推断不要经过严谨的实验设计，以样本的可靠性和代表性为基础。样本的可靠性：主要是使样本中每一观察单位确属同质总体。样本的代表性：使样本能充分反映总体的实际情况，要求抽样遵循随机化原则，目的是使每个观察单位被抽得的机会相等，避免主观取舍及偏性；还要保证足够的样本量，即保证足够的观察单位个数。

•参数（parameter）

统计学上描述总体变量的特征称为参数。如总体均数、中位数和众数等描述总体的中心位置或集中趋势；总体标准差、极差、四分位数间距等描述总体的离散趋势等。但总体参数常属未知，而需以样本统计量来估计总体参数称为样本指标。如以样本均数（）推算总体均数（m），以样本标准差（s）推算总体标准差（s）等，值得注意的是，选择统计量作为参数估计值时，通常选择无偏、有效且一致的估计量，即对总体变量渐进无偏估计量。

计量资料（measurement data）

又称定量资料（quantitative data）或数值变量（numerical variable）资料。为测定每个观察单位某项指标的大小而获得的资料。其变量值是定量的，表现为数值大小，一般有度量衡单位。

计数资料（enumeration data）

又称定性资料（qualitative data）或无序分类变量（unordered categorical variable）资料。为将观察单位按某属性或类别分组计数，分组汇总各组观察单位数后而得到的资料。其变量值是定性的，表现为互不相容的属性或类别，如试验结果的阴阳性，家族史的有无等等。分两种情形：

（1）二分类：如检查某单位工作人员血清的乙型肝炎表面抗原，以每个工作人员为观察单位，结果可报告为乙型肝炎表面抗原阴性或阳性两类。两类间相互对立，互不相容。

（2）多分类：如观察某人群的血型分布，以人为观察单位，结果可分为A型、B型、AB型与O型，为互不相容的四个类别。

等级资料（ranked data）

又称半定量资料（semi-quantitative data）或有序分类变量（ordered categorical variable）资料。为将观察单位按某种属性的不同程度分成等级后分组计数，分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质，表现为等级大小或属性程度。如观察某人群某血清反应，以人为观察单位，根据反应强度，结果可分-、±、+、++、+++、++++六级。

误差（error）

泛指实测值与真值之差，按其产生的原因和性质可粗分为随机误差（random error）与非随机误差（nonrandom error）两大类，后者又可分为系统误差（systematic error）与非系统误差（nonsystematic error）两类。

随机误差

是一类不恒定的、随机变化的误差，由多种尚无法控制的因素引起。例如，在实验过程中，在同一条件下对同一对象反复进行测量，虽极力控制或消除系统误差后，每次测量结果仍会出现一些随机变化即随机测量误差,以及在抽样过程中由于抽样的偶然性而出现的抽样误差。随机误差是不可避免的，在大量重复测量中，它可出现或大或小、或正或负的呈一定规律性的变化。但由于造成随机误差的影响因素太多、太复杂，以至无法掌握其具体规律。随着科学的发展与社会进步，有些随机误差可能会逐渐被认识而得以控制。随机误差呈正态分布，可用医学统计学的方法进行分析。

系统误差

是实验过程中产生的误差，它的值或恒定不变，或遵循一定的变化规律，其产生的原因往往是可知的或可能掌握的。例如，可能来自于受试者抽样不均匀，分配不随机，可能来自于不同实验者个人感觉或操作上的差异，可能来自于不标准的仪器，也可能来自于外环境非实验因素的不平衡等。因而应尽可能设法预见到各种系统误差的具体来源，力求通过周密的研究设计和严格的技术措施加以消除或控制。

非系统误差

在实验过程中由研究者偶然的失误而造成的误差。例如，仪器失灵、超错数字、电错小数点、写错单位等，亦称为过失误差（gross error）。这类误差应当通过认真检查核对予以清除，否则将会影响研究结果的准确性。

基本统计量

平均数（average）

是统计中应用最广泛、最重要的一个指标体系，用来说明一组变量值的集中趋势、中心位置或平均水平。它常作为一组资料的代表值，使资料产生简明概括的印象，又便于进行组间的比较。

平均数

的应用是以同质为基础的。但同质也是相对的。因此，同质是要根据研究目的来决定的。不同质的事物，需在合理分组的基础上，分别求平均数，才可分析比较，否则是毫无意义的。

常用的平均数有算术平均数、几何平均数、中位数和百分位数及众数等，前三种较为常见。

均数是算术平均数（arithmetic mean）的简称，总体均数用希腊字母m表示，样本均数用拉丁字母表示，是一组变量值的数值上的平均，即算术平均数是获得结果之和除以结果个数。

标准差

标本方差

总体方差

标准差表示结果分布的宽度。在质量控制误差限（控制限）通常是建立在实验室自己结果的标准差基础上。

标准差的应用：

（1）表示变量值的离散程度。标准差越大，变量值分布越散，均数的代表性越差，即s越大，代表性越小，反之亦然。但当资料的度量单位不同或均数相差较大时，两组资料的标准差不能直接相比。

（2）结合均数描述正态分布特征。根据正态分布曲线下面积的规律，可以通过 ±s的倍数形式来概括描述变量值的分布，对这组资料的频数分布做出概括性的估计。

（3）根据正态分布原理，应用于求正常值范围，即 ±1.96s计算出总体观察值的95%的变量值所在范围的界限，确定出医学参考范围；还可用制定的范围做质量控制。

（4）标准差还可以用来计算变异系数及结合样本含量计算标准误。

极差

极差（range, 简记R）:是一组数值中最大值与最小值的差值。单位与变量值相同。极差越大，变异度越大，各变量值离均值越远，数据越分散，均数的代表性越差，反之亦然。

极差是最简单的一种离散趋势指标，应用广泛。但以极差反映变异度，较为粗略。因为：（1）除了最大和最小值外，不能反映其它数据的变异度；（2）当样本含量不同时，样本含量越大，遇到较大或较小极端值的机会就加大，极差可能越大，故样本含量悬殊时不宜比较其极差；（3）既使样本含量不变，极差的抽样误差亦较大。

变异系数

变异系数（Coefficient of variation, 简记为CV）：是标准差与平均值之比用百分数表示，计算公式为：

极差、标准差与变量值的单位相同，而变异系数是相对比的，没有单位，更便于资料间的分析比较。

常用于：（1）比较均数相差悬殊的几组资料的变异度，如相同度量衡单位指标的不同时间的纵向比较。（2）比较度量衡单位不同的多组资料的变异度，即做相同时间不同指标的横向比较。（3）变异系数还常用于比较多个样品重复测定的误差。

准确度（accuracy）是测量结果中系统误差与随机误差的综合, 表示测量结果与真值的一致程度。

准确度不能以数字表达，它往往以不准确度来衡量。以不准确度的数据表达。

精密度(precision)表示测量结果中的随机误差大小的程度。精密度是指在一定条件下进行多次测定时, 所得测定结果之间的符合程度。

测量过程应该足够精密, 才能在使用时达到最少的重复测量次数。非常精密的测量系统仅需要一次测量就能满足要求。精密度差的测量系统即使增加重复次数也不会明显改善精密度。

精密度无法直接衡量，往往以不精密度表达，常用标准差（s)或变异系数(CV%)表示，较小的标准差表示有较高的精密度。可用一个样本的重复测定结果,或由多个样本多次重复测定所得的信息合并在一起来估计精密度。

准确度与精密度关系

准确度与精密度虽然概念不同，但是两者却有密切的关系。准确度是由系统误差和随即误差所决定的。而精密度是由随机误差决定的。在检测过程中，虽然有很高的精密度，但并不能说明试验结果准确。只有在消除了系统误差之后，精密度和准确度才是一致的。此时精密度越高，准确度也就越高。

来源：临床医学检验

转自：“斐然智达SCI学术服务”微信公众号

如有侵权，请联系本站删除！

上一篇： 统计分析指导
下一篇： 【重磅推荐】全球药物研发进展10月月报，新药情报免费获取

投稿问答最小化 关闭

医学统计学基本知识

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

医学统计学基本知识

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭