投稿问答最小化  关闭

万维书刊APP下载

logistic回归如何回复SCI审稿人意见

2023/6/13 16:04:50  阅读:64 发布者:

以下文章来源于陆震生物统计 ,作者luzhen

背景

logistic回归是常用的回归方法,可能我们自己在做数据分析的时候都没有想过日后审稿人关于这一点提出很多疑问。在遇到比较严谨的审稿人的时候,我们发现他们常常在logisticassumptions上要求我们展示分析的过程。这里,我们汇总一下logistic回归key assumptions的检查要求,方便大家回复审稿人意见,或者,更进一步地,在自己做分析的时候,就提前考虑好这一点,让自己的回归分析更加挑不出漏洞,也是为了让自己的结果更加符合规范,更加robust

assumption 1: 合适的结局变量类型

作为常用的分类器,我们使用的logistic回归的类型(i.e., binary, multinomial, ordinal)必须适配于数据集的结局变量类型。这一点是比较好check的,我们只需要了解自己数据的结局变量类型就可以了。

assumption 2: linearity in the logit

这是logistic比较重要的一个assumption,即要求对于连续变量,其与logitlog odds)之间必须是满足线性关系。有两种方法进行检验。

方法一,通过图形可视化。我们作log odds与连续性变量的散点图。若散点图呈现线性关系,如下图,则此assumption满足。否则,需要对非线性的连续变量进行转换处理,如增加多项式、spline或分段处理。

probabilities= model.predict(X)

logit= np.log(probabilities / (1 - probabilities))

plt.scatter(x=X, y=logit)

plt.show()

linearity in the logit

方法二,在R中,可以通过**Box-Tidwell transformation (test)**来检验。

assumption 3: no strongly influential outliers

logistic要求数据中没有显著的异常值或者极端值的出现,这些值会显著影响到回归的稳定性。对于这一assumption,我们常使用Cook's distance来检验强影响值。一般地,对于Cook's distance超过4/Nobservation可视为influential。但是,需要注意的是,并非所有的influential observation都是直接删掉,我们需要去深入关注这部分数据的合理性。对于outliers,我们可以使用absolute standardized residuals来识别,对于std resid大于3的,一般可视为可能的outlier,可以考虑删除或者进行对数化处理。

Cook's distance

assumption 4: multicollinearity

这是个老生常谈的问题了。多重共线性意味着数据中存在高度相关的自变量,而这恰恰不满足logistic的要求。我们可以通过correlation matrix来展示变量间的相关性,如下图。

correlation matrix

但是,correlation matrix有弊端,当存在三个或三个以上变量存在multicollinearity时,无法从图形上反映出来,因而,一般地,我们选择计算variance inflation factorVIF)。经验上,有VIF超过5,即可视为存在多重共线性问题。

assumption 5: independence of observations

logistic要求观测之间相互独立,即error terms之间相互独立,数据并非来自重复测量数据或者matched data。对于这一点,我们可以通过图示展示residuals against the order of the observations。若呈现出来的是随机地围绕0上下分布,则满足这一假设。

residual series plot

assumption 6: overdispersion

对于这一假设,我们之前在这篇文章里已经提到应对方法。由于协变量选择或者抽样的问题,logistic预测值与真实值之间的差异超过了logistic model可以预测的范围,我们推荐当出现过离散时,使用GEE来拟合模型系数。

assumption 7: sample size

一般地,要求样本量在500以上。经验上,每个类别至少30-50例。

转自:“医学论文与统计分析”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com