投稿问答最小化  关闭

万维书刊APP下载

医学论文撰写中的多因素分析要点总结

2024/5/20 14:28:04  阅读:55 发布者:

目前,医学期刊中的多因素分析方法主要有:多重线性回归分析、条件和非条件Logistic回归、Cox比例风险回归模型等。我们发现,作者来稿中多因素分析内容往往存在或多或少的问题,如样本量过小、变量纳入方法有误、统计量和P值之间不对应等,下面对此做一总结。

样本量是否足够

关于多因素分析方法,包括多重线性回归分析、Logistic回归及Cox比例风险回归模型的样本量估计问题,常用的经验估计方法是,样本量应是自变量数量的5~20倍甚至更多,样本量太小几乎没有做多因素分析的必要,且此时多因素分析的模型拟合效果往往不理想。

多因素分析方法对于变量的要求

不同的多因素分析方法,对于变量都有其适用条件。多重线性回归的变量要求是,因变量是计量资料,自变量类型不限;Logistic回归模型的变量要求是,因变量是分类资料,包括二分类、无序多分类和有序多分类资料,而自变量的类型不限;Cox比例风险回归模型适用于生存资料(包括生存时间和生存结局),而自变量的类型不限。

模型中纳入的变量是否合理及完整

我们在编辑工作中发现,作者最常用的变量纳入方法为,根据单因素分析结果,选择有统计学意义的变量纳入多因素分析模型。我们认为,此种方法只正确纳入了部分的自变量,而合理的变量纳入方法是,根据单因素分析结果、专业知识及既往文献结果选择需纳入的变量。例如,目前大多认为,肿瘤的分化程度和预后密切相关,但若某研究者进行单因素分析时,发现肿瘤的分化程度没有统计学意义,据此认为多因素分析时不用纳入该变量,则是不合适的。单因素分析时没有统计学意义的原因在于,只考虑了肿瘤的分化程度这一个因素,其他因素未考虑在内。有可能在多因素分析时,控制了其他混杂因素的影响后,肿瘤的分化程度对预后的影响才体现出来,才有统计学意义。因此,单因素分析结果不能作为多因素分析变量选择的唯一依据,且同研究的同一因素的单因素分析结果和多因素分析结果可能相悖。此外需强调的是,对配对资料进行条件Logistic回归分析时,配对的变量不应纳入多因素分析。

核查是否考虑了变量之间的相互影响:以多重线性回归模型为例,自变量必须是相互独立的,若自变量之间本身存在较强的相关关系时,它们之间就存在多重共线性问题。在模型拟合过程中,需考虑变量之间的相互影响,即考虑变量之间的共线性问题,需进行共线性诊断。共线性会对模型的拟合产生不良影响,如参数估计的精度降低、置信区间长度增宽、模型拟合后系数解释困难等,应该避免。若稿件作者未提供相应的指标(如反映共线性严重程度的方差膨胀因子、条件指数、方差分量等),也可通过其他指标窥见一斑,如同时纳入了身高、体质量及体质量指数(BMI),或同时纳入了T分期、N分期、M分期及TNM分期时,务必重点注意各变量的解释是否符合专业结论;如出现了与专业解释相悖的情况(如回归系数本应为正值结果却为负值),或者某些指标的waldχ2值尤其大(超过1 000甚至几千),则需警惕变量之间的共线性关系。最常见的处理共线性的方法为:从一组高度相关和具有多重共线性的自变量中删除某个变量,如TNMTNM分期,可考虑只纳入TNM分期或者研究想要关注的哪个因素,再建立回归模型;改变自变量的定义形式,将2个有多重共线性的自变量合并成一个变量或进行变量变换;进行岭回归或采用主成分分析。Logistic回归模型和Cox比例风险模型的共线性诊断和处理方法原理与多重线性回归类似,在此不再赘述。

多因素分析结果核查

1)分类资料是否给出了对照。在多因素分析过程中,对于以分类资料形式纳入的变量,包括二分类资料和无序多分类资料,甚至是等级资料,都会设置一类对照。若文章没有给出对照,也没有做任何文字说明,则对系数的解释就无从下手;因而,要求作者提供变量赋值表,并在多因素分析表格内明确阐明对照类别。我们认为,多因素分析时,呈现变量赋值表的作用在于:呈现各变量的赋值情况;呈现各变量的纳入形式,特别是等级资料;因变量为二分类变量时,呈现关注的结果(如1为患病时,关心患病;如0为患病、1为未患病,则关心的是未患病),自变量为二分类变量时,呈现对照(程序分析时往往默认对照是赋值为0的特征)。

2)多因素分析结果是否呈现完整。多重线性回归分析。笔者认为,多重线性回归分析的呈现结果中,除了常规的回归系数(β值)、标准化偏回归系数、t值和P值外,还应呈现反映模型拟合效果的指标,如R2值、校正R2值、剩余标准差等,以及反映变量之间共线性的指标(方差膨胀因子)等。②Logistic回归分析。Logistic回归模型的呈现结果同上述多重线性回归模型,只是需额外呈现OR值、OR值的置信区间及回归系数的Waldχ2值(用于初步审核模型拟合情况)。对所建立的Logistic回归模型,需进行拟合优度检验,常用的检验统计量有剩余差(D)、Pearsonχ2Hosmer-Lemeshow拟合优度指标,因计算复杂,需通过软件计算,故需由作者提供。③Cox比例风险回归模型。Cox比例风险回归模型的呈现结果同Logistic回归模型,但需注意,统计量是RR值而非ORHRCox比例风险回归模型的诊断也涉及诸多方面,但最重要的是要考虑比例风险,假设是否满足,以及自变量间是否存在多重共线性。

3)回归系数的解释是否符合常规,以及回归系数值和OR/RR值是否对应。在进行结果审查时,需特别注意系数值是否符合专业知识。假设某死亡影响因素分析时,TNM分期的系数值为负值,对照为TNM Ⅰ+II期,则解释为患者TNM Ⅲ+Ⅳ期的死亡率低于TNM Ⅰ+II期,这和专业认知相悖,需仔细审核模型自变量纳入方法、进行共线性诊断等,排除共线性对TNM分期效果呈现的干扰。此外,在Logistic回归分析和Cox比例风险回归模型条件下,若回归系数的值为负值,则OR/RR<1,若回归系数的值为正值,则OR/RR>1

4)效应统计量和95%CI之间是否对应、95%CIP值是否对应。OR值、RR值和各自对应的95%CI之间的对应关系为,95%CI范围内必定包含了OR/RR值,若95%CI区间包括了1,则P≥0.05,否则P<0.05

以上对多因素分析的问题总结,希望对大家的论文写作有所帮助。

转自发表论文医学SCI核心职称论文微信公众号,仅作学习交流,如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com