论文常见问题解析之:论文中出现多重共线性如何理解多重共线性及其影响?
2024/10/15 15:18:05 阅读:30 发布者:
在进行线性回归分析时,容易出现自变量(解释变量)之间彼此相关的现象,我们称这种现象为多重共线性。但当出现严重共线性问题时,会导致分析结果不稳定,出现回归系数的符号与实际情况完全相反的情况。
如何判断是否出现了多重共线性
直接对自变量进行相关分析,查看相关系数和显著性也是一种判断方法。如果一个自变量和其他自变量之间的相关系数显著,则代表可能存在多重共线性问题。
或是使用的是回归分析中的VIF——方差扩大因子(variance inflation factor)值,VIF值越大,多重共线性越严重。
1
共线性的判别指标
有多种方法可以检测多重共线性
较常使用的是回归分析中的VIF值,VIF值越大,多重共线性越严重。一般认为VIF大于10时(严格是5),代表模型存在严重的共线性问题。
有时候也会以容差值作为标准,容差值=1/VIF,所以容差值大于0.1则说明没有共线性(严格是大于0.2),VIF和容差值有逻辑对应关系,两个指标任选其一即可。
除此之外,直接对自变量进行相关分析,查看相关系数和显著性也是一种判断方法。如果一个自变量和其他自变量之间的相关系数显著,则代表可能存在多重共线性问题。
多重共线性处理方法
多重共线性是普遍存在的,通常情况下,如果共线性情况不严重(VIF<5),不需要做特别的处理。如存在严重的多重共线性问题,可以考虑使用以下几种方法处理:
1. 手动移除出共线性的变量
先做下相关分析,如果发现某两个自变量X(解释变量)的相关系数值大于0.7,则移除掉一个自变量(解释变量),然后再做回归分析。此方法是最直接的方法,但有的时候我们不希望把某个自变量从模型中剔除,这样就要考虑使用其他方法。
2. 逐步回归法
让系统自动进行自变量的选择剔除,使用逐步回归将共线性的自变量自动剔除出去。此种解决办法有个问题是,可能算法会剔除掉本不想剔除的自变量,如果有此类情况产生,此时最好是使用岭回归进行分析。
3. 增加样本容量
增加样本容量是解释共线性问题的一种办法,但在实际操作中可能并不太适合,原因是样本量的收集需要成本时间等。
4. 岭回归
上述第1和第2种解决办法在实际研究中使用较多,但问题在于,如果实际研究中并不想剔除掉某些自变量,某些自变量很重要,不能剔除。此时可能只有岭回归最为适合了。岭回归是当前解决共线性问题最有效的解释办法。
案例说明
一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。(案例参考来源:统计学 第7版 中国人民大学出版社)为了弄清不良贷款形成原因,管理者希望利用银行业务的有关数据进行分析,以便参考不良贷款对该银行所属的25家分行进行分析发现自变量之间存在较高的相关性,因而查看vif值发现存在多重共线性,案例选择岭回归模型进行处理。具体分析如下:
四、判断多重共线性
该案例利用相关分析和检验VIF值两个方面进行验证多重共线性。首先进行相关分析以及进一步查看VIF值。
1.相关分析
从图片上来看“各项贷款余额”与“贷款项目个数”、“本年固定资产投资额”以及“贷款项目个数”与“本年固定资产投资额”高度相关相关系数都分别约为0.848、0.780以及0.747都大于0.7,说明可能存在共线性问题进一步查看vif值进行确定。
2.VIF值
从结果中可以看出,分析项中VIF值存在大于5的现象从严格意义来讲存在多重共线性,并且相关分析发现自变量之间存在较高的相关性。如果研究者也遇到此类问题,结果并不影响分析则不需要处理。所以该案例分析场景认为存在多重共线性,因为不想剔除自变量所以使用岭回归更合适。用岭回归进行分析后就不需要担心共线性的问题了。
转自蓝境数据微信公众号,仅作学习交流,如有侵权,请联系本站删除!