以下文章来源于丁点帮你 ,作者丁点helper
大家在学习统计时,可能会过于重视分析方法的使用,而忽略了数据收集和整理的重要性。一般而言,统计分析最重要的一步实际上是先将数据整理形成便于分析的数据形式,比如下表:
上表中虽然全是数字,但却可以回答很多问题。比如:每个人的年龄多大?是什么学历?婚姻状况如何?就业情况如何?家里有几口人?
这些问题的答案都是我们所调查对象的一系列特征或属性,统计学上称为变量(variable),也就是上表顶行各条目的名称。初学统计学一定要训练自己学会利用“变量”来表达。
每个被调查对象被称为一个观测单位(case 或 observation),变量就是观测单位的某种特征或属性,变量的具体取值称为“变量值”。
由此,上表中的一系列问题对应的变量就是:年龄、学历、婚姻状况、就业情况、家庭人口数、ABO血型等。
进一步观察,可以发现,有些变量的取值如年龄、家庭人口数是具体的、有实际意义的数值;而有些变量的取值如学历、婚姻状况虽用数字来表示,但其意义却只是一个“代号”,背后都需要特定的文字进行定义说明,比如规定“0=未婚,1=已婚”。
因此,像年龄、家庭人口数这类变量,其取值是定量的、有计算意义的,我们称之为定量变量(quantitative variable);
而像学历、婚姻状况和就业状况这类变量的取值是定性的、主要起代号作用,称之为定性变量(qualitative variable)。
另一方面,为了对定性变量进行统计学处理,往往需要对其进行编码,比如“男为0,女为1”。所以,在实际的统计工作中,要避免输入汉字,而是要注意将其转换为相应的数字。
甚至变量名称,如上述的“编号、年龄、学历等”也尽量采用英文或汉语拼音来表示,避免统计软件出错。
更进一步思考会发现,年龄、人口数等变量一般是有单位的,并且不同人的年龄差异在理论上可以无限小,如1年、1个月、1天、1小时、0.1小时、0.01小时……
所以,年龄变量的取值范围在理论上可以取任意正实数,注意不是正整数,比如一个人的年龄可以记为17.55岁,表示年龄为17岁6个月18天,甚至还可以利用出生时刻的信息精确到更小的时间单位(如“分、秒”)。因此,这类变量称为连续变量(continuous variable),主要是因为其取值范围在理论上是连续不断的。
相反,家庭人口数这一变量就是相对于连续变量的另一类,即离散变量(discrete variable),因为不同家庭的人口数只可能相差0、1、2,而不能相差1.1、1.2等,它的取值范围是间断而不连续的。
由此可见,一般仅定量变量有连续和离散之分,即一个定量变量要么是连续的、要么是离散的。
相较而言,定性变量从数据表现上虽然和离散变量类似,但由于它只具有“代号”意义,所以一般不把它视为离散变量。
除此之外,定性变量的取值往往表现为互不交叉的类别(所以定性变量也称分类变量),同时这些类别有时会存在细微的差别。
如学历这类定性变性变量的取值为“文盲、小学、初中、高中……”,透露出一种等级或顺序的感觉,因此也称之为有序分类变量,这是指其取值的各类别之间存在着程度上的差别。
另外一个常见的例子是“满意程度”,包括“很不满意、不满意、一般、满意、非常满意”。这类有序分类变量给人一种“半定量”的感觉,也称为“等级变量”;
与之相对的另一类定性变量,即无序分类变量,其各个取值则不存在程度的差异,比如性别、血型等。
对于无序分类变量,根据取值的不同又可分为“二项分类变量”和“多项分类变量”,比如性别(一般情况)只分为男女两类,所以称之为二分类,而血型类别较多,可称为多分类。
理清了各种变量的含义,还需要明白各种类型的变量间是可以进行转换的。
比如血压值一般记为定量变量,但其可按照一定的临床标准,将其转换为定性变量,例如根据血压值分为:正常血压( 收缩压<120,舒张压 <80)、正常高值 (120-139 80-89)、高血压( ≥140 ≥90)。
这种变量的转换具有方向性,只能由“细”向“粗”转换,即定量→有序分类→二项分类。
同时,要知道这种转换会导致信息损失,并且也不能作相反方向的转化,比如只知道某人血压为“正常高值”,我们就无法精确得知其具体数值,所以,在统计分析过程中,如果涉及变量转化,需要意识到这一点。
值得一提的是,变量类型的区分还与分析的基本单位有关。例如,以“是否患病”为研究变量,以个体为基本分析单位,则其为“二分类变量”,比如用“1=患病,0=未患病”;
但若以某个地区为测量和分析单位,比如比较全国各城市高血压的患病率,此时患病率则为“定量变量”。因此,变量的设定可以依据研究目的而灵活处理。
注:文章有参考,来源为《卫生统计学》(人卫第八版)
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!