投稿问答最小化  关闭

医学统计学基本知识

2022/11/17 10:15:18  阅读:183 发布者:

统计学基本知识

•总体(population

指同质的研究对象中所有观察单位研究指标变量值的集合。总体通常限定于特定的时间与空间范围之内,且为有限数量的观察单位,称为有限总体;有时总体是假设的,没有时间和空间限制,观察单位数是无限的,称为无限总体。

•样本(sample

医学实践与研究中,要直接研究无限总体通常是不可能的,即使是有限总体,由于人力、物力、时间、条件等限制,要对其中每个观察单位进行研究或观察,有时也是不可能的,也不必要。而只是从总体中随机抽取部分观察单位,其变量实测值构成样本,目的用样本指标推断总体特征。这种推断不要经过严谨的实验设计,以样本的可靠性和代表性为基础。样本的可靠性:主要是使样本中每一观察单位确属同质总体。样本的代表性:使样本能充分反映总体的实际情况,要求抽样遵循随机化原则,目的是使每个观察单位被抽得的机会相等,避免主观取舍及偏性;还要保证足够的样本量,即保证足够的观察单位个数。

•参数(parameter

统计学上描述总体变量的特征称为参数。如总体均数、中位数和众数等描述总体的中心位置或集中趋势;总体标准差、极差、四分位数间距等描述总体的离散趋势等。但总体参数常属未知,而需以样本统计量来估计总体参数称为样本指标。如以样本均数(  )推算总体均数(m),以样本标准差(s)推算总体标准差(s)等,值得注意的是,选择统计量作为参数估计值时,通常选择无偏、有效且一致的估计量,即对总体变量渐进无偏估计量。

计量资料(measurement data

又称定量资料(quantitative data)或数值变量(numerical variable)资料。为测定每个观察单位某项指标的大小而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。

计数资料(enumeration data)  

又称定性资料(qualitative data)或无序分类变量(unordered categorical variable)资料。为将观察单位按某属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别,如试验结果的阴阳性,家族史的有无等等。分两种情形:

   1)二分类:如检查某单位工作人员血清的乙型肝炎表面抗原,以每个工作人员为观察单位,结果可报告为乙型肝炎表面抗原阴性或阳性两类。两类间相互对立,互不相容。

  2)多分类:如观察某人群的血型分布,以人为观察单位,结果可分为A型、B型、AB型与O型,为互不相容的四个类别。

等级资料(ranked data)  

又称半定量资料(semi-quantitative data)或有序分类变量(ordered categorical variable)资料。为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。如观察某人群某血清反应,以人为观察单位,根据反应强度,结果可分-、±、++++++++++六级。

误差(error

泛指实测值与真值之差,按其产生的原因和性质可粗分为随机误差(random error)与非随机误差(nonrandom  error)两大类,后者又可分为系统误差(systematic error)与非系统误差(nonsystematic error)两类。

随机误差   

是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。例如,在实验过程中,在同一条件下对同一对象反复进行测量,虽极力控制或消除系统误差后,每次测量结果仍会出现一些随机变化即随机测量误差,以及在抽样过程中由于抽样的偶然性而出现的抽样误差。随机误差是不可避免的,在大量重复测量中,它可出现或大或小、或正或负的呈一定规律性的变化。但由于造成随机误差的影响因素太多、太复杂,以至无法掌握其具体规律。随着科学的发展与社会进步,有些随机误差可能会逐渐被认识而得以控制。随机误差呈正态分布,可用医学统计学的方法进行分析。

系统误差    

是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生的原因往往是可知的或可能掌握的。例如,可能来自于受试者抽样不均匀,分配不随机,可能来自于不同实验者个人感觉或操作上的差异,可能来自于不标准的仪器,也可能来自于外环境非实验因素的不平衡等。因而应尽可能设法预见到各种系统误差的具体来源,力求通过周密的研究设计和严格的技术措施加以消除或控制。

非系统误差   

在实验过程中由研究者偶然的失误而造成的误差。例如,仪器失灵、超错数字、电错小数点、写错单位等,亦称为过失误差(gross error)。这类误差应当通过认真检查核对予以清除,否则将会影响研究结果的准确性。

基本统计量

平均数(average

是统计中应用最广泛、最重要的一个指标体系,用来说明一组变量值的集中趋势、中心位置或平均水平。它常作为一组资料的代表值,使资料产生简明概括的印象,又便于进行组间的比较。

平均数

的应用是以同质为基础的。但同质也是相对的。因此,同质是要根据研究目的来决定的。不同质的事物,需在合理分组的基础上,分别求平均数,才可分析比较,否则是毫无意义的。

常用的平均数有算术平均数、几何平均数、中位数和百分位数及众数等,前三种较为常见。

均数是算术平均数(arithmetic mean)的简称,总体均数用希腊字母m表示,样本均数用拉丁字母表示,是一组变量值的数值上的平均,即算术平均数是获得结果之和除以结果个数。

 

标准差

标本方差

总体方差

标准差表示结果分布的宽度。在质量控制误差限(控制限)通常是建立在实验室自己结果的标准差基础上。

标准差的应用:

  1)表示变量值的离散程度。标准差越大,变量值分布越散,均数的代表性越差,即s越大,代表性越小,反之亦然。但当资料的度量单位不同或均数相差较大时,两组资料的标准差不能直接相比。

  2)结合均数描述正态分布特征。根据正态分布曲线下面积的规律,可以通过   ±s的倍数形式来概括描述变量值的分布,对这组资料的频数分布做出概括性的估计。

  3)根据正态分布原理,应用于求正常值范围,即    ±1.96s计算出总体观察值的95%的变量值所在范围的界限,确定出医学参考范围;还可用制定的范围做质量控制。

  4)标准差还可以用来计算变异系数及结合样本含量计算标准误。

极差

极差(range, 简记R:是一组数值中最大值与最小值的差值。单位与变量值相同。极差越大,变异度越大,各变量值离均值越远,数据越分散,均数的代表性越差,反之亦然。

极差是最简单的一种离散趋势指标,应用广泛。但以极差反映变异度,较为粗略。因为:(1)除了最大和最小值外,不能反映其它数据的变异度;(2)当样本含量不同时,样本含量越大,遇到较大或较小极端值的机会就加大,极差可能越大,故样本含量悬殊时不宜比较其极差;(3)既使样本含量不变,极差的抽样误差亦较大。

 

  变异系数

变异系数(Coefficient of variation, 简记为CV):是标准差与平均值之比用百分数表示,计算公式为:

 

极差、标准差与变量值的单位相同,而变异系数是相对比的,没有单位,更便于资料间的分析比较。

  常用于:(1)比较均数相差悬殊的几组资料的变异度,如相同度量衡单位指标的不同时间的纵向比较。(2)比较度量衡单位不同的多组资料的变异度,即做相同时间不同指标的横向比较。(3)变异系数还常用于比较多个样品重复测定的误差。

准确度(accuracy)是测量结果中系统误差与随机误差的综合, 表示测量结果与真值的一致程度。

准确度不能以数字表达,它往往以不准确度来衡量。以不准确度的数据表达。

精密度(precision)表示测量结果中的随机误差大小的程度。精密度是指在一定条件下进行多次测定时, 所得测定结果之间的符合程度。

测量过程应该足够精密, 才能在使用时达到最少的重复测量次数。非常精密的测量系统仅需要一次测量就能满足要求。精密度差的测量系统即使增加重复次数也不会明显改善精密度。

精密度无法直接衡量,往往以不精密度表达,常用标准差(s)或变异系数(CV%)表示,较小的标准差表示有较高的精密度。可用一个样本的重复测定结果,或由多个样本多次重复测定所得的信息合并在一起来估计精密度。

准确度与精密度关系     

准确度与精密度虽然概念不同,但是两者却有密切的关系。准确度是由系统误差和随即误差所决定的。而精密度是由随机误差决定的。在检测过程中,虽然有很高的精密度,但并不能说明试验结果准确。只有在消除了系统误差之后,精密度和准确度才是一致的。此时精密度越高,准确度也就越高。

来源:临床医学检验

转自:“斐然智达SCI学术服务”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com