论文常见问题解析之：论文中出现多重共线性如何理解多重共线性及其影响？

2024/10/15 15:18:05　阅读：470　发布者：

在进行线性回归分析时，容易出现自变量（解释变量）之间彼此相关的现象，我们称这种现象为多重共线性。但当出现严重共线性问题时，会导致分析结果不稳定，出现回归系数的符号与实际情况完全相反的情况。

如何判断是否出现了多重共线性

直接对自变量进行相关分析，查看相关系数和显著性也是一种判断方法。如果一个自变量和其他自变量之间的相关系数显著，则代表可能存在多重共线性问题。

或是使用的是回归分析中的VIF——方差扩大因子(variance inflation factor)值，VIF值越大，多重共线性越严重。

共线性的判别指标

有多种方法可以检测多重共线性

较常使用的是回归分析中的VIF值，VIF值越大，多重共线性越严重。一般认为VIF大于10时（严格是5），代表模型存在严重的共线性问题。

有时候也会以容差值作为标准，容差值=1/VIF，所以容差值大于0.1则说明没有共线性(严格是大于0.2)，VIF和容差值有逻辑对应关系，两个指标任选其一即可。

除此之外，直接对自变量进行相关分析，查看相关系数和显著性也是一种判断方法。如果一个自变量和其他自变量之间的相关系数显著，则代表可能存在多重共线性问题。

多重共线性处理方法

多重共线性是普遍存在的，通常情况下，如果共线性情况不严重（VIF<5），不需要做特别的处理。如存在严重的多重共线性问题，可以考虑使用以下几种方法处理：

1. 手动移除出共线性的变量

先做下相关分析，如果发现某两个自变量X（解释变量）的相关系数值大于0.7，则移除掉一个自变量（解释变量），然后再做回归分析。此方法是最直接的方法，但有的时候我们不希望把某个自变量从模型中剔除，这样就要考虑使用其他方法。

2. 逐步回归法

让系统自动进行自变量的选择剔除，使用逐步回归将共线性的自变量自动剔除出去。此种解决办法有个问题是，可能算法会剔除掉本不想剔除的自变量，如果有此类情况产生，此时最好是使用岭回归进行分析。

3. 增加样本容量

增加样本容量是解释共线性问题的一种办法，但在实际操作中可能并不太适合，原因是样本量的收集需要成本时间等。

4. 岭回归

上述第1和第2种解决办法在实际研究中使用较多，但问题在于，如果实际研究中并不想剔除掉某些自变量，某些自变量很重要，不能剔除。此时可能只有岭回归最为适合了。岭回归是当前解决共线性问题最有效的解释办法。

案例说明

一家大型商业银行在多个地区设有分行，其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来，该银行的贷款额平稳增长，但不良贷款额也有较大比例的提高，这给银行业务的发展带来较大压力。（案例参考来源：统计学第7版中国人民大学出版社）为了弄清不良贷款形成原因，管理者希望利用银行业务的有关数据进行分析，以便参考不良贷款对该银行所属的25家分行进行分析发现自变量之间存在较高的相关性，因而查看vif值发现存在多重共线性，案例选择岭回归模型进行处理。具体分析如下：

四、判断多重共线性

该案例利用相关分析和检验VIF值两个方面进行验证多重共线性。首先进行相关分析以及进一步查看VIF值。

1.相关分析

从图片上来看“各项贷款余额”与“贷款项目个数”、“本年固定资产投资额”以及“贷款项目个数”与“本年固定资产投资额”高度相关相关系数都分别约为0.848、0.780以及0.747都大于0.7，说明可能存在共线性问题进一步查看vif值进行确定。

2.VIF值

从结果中可以看出，分析项中VIF值存在大于5的现象从严格意义来讲存在多重共线性，并且相关分析发现自变量之间存在较高的相关性。如果研究者也遇到此类问题，结果并不影响分析则不需要处理。所以该案例分析场景认为存在多重共线性，因为不想剔除自变量所以使用岭回归更合适。用岭回归进行分析后就不需要担心共线性的问题了。

转自蓝境数据微信公众号，仅作学习交流，如有侵权，请联系本站删除！

上一篇： 好用~论文写作时常用的研究方法
下一篇： 盲审老师就看这6点

投稿问答最小化 关闭

论文常见问题解析之：论文中出现多重共线性如何理解多重共线性及其影响？

本文评论

暂无相应记录！

期刊论文热门文章

本站推荐

最近更新

投稿问答最小化 关闭

论文常见问题解析之：论文中出现多重共线性如何理解多重共线性及其影响？

本文评论

暂无相应记录！

期刊论文热门文章

本站推荐

最近更新

投稿问答最小化关闭