投稿问答最小化  关闭

万维书刊APP下载

协变量、混杂因素,你分清了吗?

2023/7/5 14:14:12  阅读:265 发布者:

以下文章来源于实战医学统计 ,作者聂志强

本章思维导图:

今天群里面忽然有小伙伴问起,协变量vs混杂因素(covariatecov vs. confounder)有什么区别,一时间我给难倒了。小编脑海中固有的印象是如下“协变量突出在回归模型的统计概念,混杂突出在流行病因果概念,二者几乎一致”。

小编经常看到协变量、混杂变量、控制变量互换使用。代表不同理论命名法存在差异。例如,学者 A 可能将变量 X 归类为混杂因素,而学者 B 可能将变量 X 归类为协变量。那事实究竟真正的是这样吗?二者区别究竟是什么呢?本着实事求是的科研精神,小编查阅了相关文献,加上理解后汇总如下。

一、协变量定义

在实验设计中,协变量指的是研究人员在测量的连续的独立变量,通常与感兴趣的主要因素一起测量。协变量与主要因素不同,因为它们是不可控且不能随机化的——它们被认为是“讨厌”变量,因为它们是实验设计之外的。意思就是,多余的。

在统计学理论中,协变量是实验中参与者的独立特征(不含干预变量x),可以是不需要的、混杂变量。模型中增加协变量可提供准确性。似乎定义并未考虑医学研究的复杂性。

而在实际的科研中,线性回归的自变量可以叫“协变量”,协变量等同于自变量。线性回归模型如果是一个方差分析模型,则“无法控制”的连续变量叫“协变量”。回归模型的分类变量可以叫“因子”,而连续变量可以叫“协变量”(SPSS模块)。中介效应分析的时候,把关注的自变量叫“自变量”,其它“自变量”叫协变量,当你接着把其它协变量当自变量的时候,开始的自变量又变成了协变量。相比混杂因素严谨的定义,cov的定义似乎千奇百怪五花八门。

小编总结后认为,不同学科和视角定义理解cov的确不同。但是归根结底,医学科研并不是其他学科,小编将cov定义总结如下,结论就是:

需要DAG明确cov的角色,然后套用相应统计方法。

二、DAG理论因果与cov

在数学上,除非因果推理,否则在估计线性回归或时间序列时,没有区别。也就是说,它是相同的建模,即你在RSAS等统计软件中代码相同。但是,临床及流行病领域因果推论十分重要,二者命名区分就存在显著差异。小编将DAG绘图如下,解释covconfounder与其他因果路径的区分。

2.1 cov仅仅与y相关,与x不相关

DAG示意图如下,这也是很多文献理论上展示的,但是并不全面。小编也同时举例了2个,孕妇身高、糖尿病因素作为唯一cov的案例。

2.2 cov任意链条

《药物临床试验协变量校正指导原则2020》协变量指在干预之前(通常是在随机化之前)观测到的,并且预期与主要研究结果有关联的变量。《药物真实世界研究设计与方案框架指导原则( 试行) 2023》重要协变量的确定应具备合理性,可结合各因素间的因果路径图确定,并综合考虑前期数据评估结果。在已确定的重要协变量中,建议在方案中明确协变量的属性,如效应修正因素、危险因素、混杂因素(包括时依混杂因素)、中间变量、碰撞变量、工具变量等。即使 PCT设计中采用随机分配策略,其主分析对协变量的考虑仍建议与观察性研究相同,因为在研究的实施过程中, PCT(特别是群随机 设计 )对基线均衡性的控制远不如 RCT严格。

显然,日常的rctpctcohort等干预、观察性研究的dagcov的角色灵活多变。Cov可以在理论指导的情况下任意DAG因果链条上做为媒介,路径图是复杂且不确定,这也是研究争奇斗艳百家争鸣的原因了。

三、混杂因素

Groupy 因果链,混杂与group关联(关联≠因果关联),与y关联,不在因果链中间环,非研究目的因素。混杂3条件,1.必须是所研究疾病的独立危险因子,研究过程中常规地被收集起来的研究外变量,如年龄、性别等2.必须与研究因素(group+y)有关;3.一定不是研究因素与研究疾病因果链上的中间变量。

DAG(http://www.dagitty.net/)中混杂因素需要调整,最小充分调整集会依据严格定义的混杂进行建模因素推荐。按照前面所述,下图中的z均为cov,但是却不全为confounder

四、小结

协变量在不同研究定义不同,协变量可以是因果链上除xy因素外的任意形式的变量。

DAG图非常重要,协变量 >> 混杂。

转自:“医学论文与统计分析”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com