三种方法筛选控制变量
2024/1/23 10:52:30 阅读:88 发布者:
作者:潘承谕 来源:SPSS学堂
大家好,我是上海交通大学医学院的硕士生ppppcy,目前方向是环境和人群健康,擅长流行病和统计相关内容,接下来将与大家分享协变量筛选系列内容,请大家多多关注~
在明确了暴露因素和结局变量的研究中,控制变量的筛选直接影响到后续多因素分析的结果。如,在研究吸烟和肺癌的关系时,往往还会控制年龄一变量,否则有可能得出吸烟是肺癌的保护因素这样与实际相悖的结论。控制变量的纳入需要考虑会受到样本量、结局事件数量是否足够,是否存在共线性等问题,此外还得结合经验判断是否存在专业意义。那么面对几十上百的研究因素中,大家该如何筛选出要控制的变量呢?接下来我们将会简单介绍一下三种比较常见的方法,教大家如何筛选控制变量。
1.单因素分析法
单因素分析想必大家都很熟悉了,比较常见的做法是对备选的混杂因素和研究因素或者结局变量进行单因素分析(如方差、卡方等),并将单因素分析结果有统计学显著性的变量(P是否<0.05、0.1、0.2)纳入后续模型进行分析。
2.有向无环图(Directed Acyclic Graph,DAG)
有向无环图有时也被称为因果图,是结合专业及流行病学知识,根据变量与变量之间的因果关系筛选控制变量。如果从专业或者流行病学角度来看不存在混杂关系,就将变量剔除。在下图中,当我们研究0与5的关系时,2就是潜在的混杂因素。
3.效应改变法(change in estimations,CIE)
效应改变法也叫称为CIE原则,是根据控制变量对暴露因素与结局变量的之间影响是否足够大来判断是否纳入模型。比较常见的做法是一个变量纳入多因素分析模型后,观察暴露因素与结局变量的β变化量是否>10%,若>10%则保留,否则剔除。
在应用方面而言,三种方法也有着各自的优缺点,如下图所示。
| 优点 | 缺点 |
单因素分析法 | 门槛低、适用性强 | 未排除其他因素的干扰,尤其样本量较小时,可能会遗漏真正的混杂因素 |
DAG | 从流行病学角度考虑可清晰地指明因果效应 | 学习门槛高、有一定的难度。依赖于研究者丰富的专业知识。 |
CIE | 门槛低、适用性强、从统计角度考虑更跟有效地校正混杂 | 当涉及多种研究因素、结局、协变量时,工作量繁琐重复。 |
当然也可以把以上三种方法结合起来使用,比较常见的组合是使用DAG+CIE控制混杂。本篇介绍就到这里
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!