结构方程模型处理缺失值的方法

2024/1/23 10:42:31　阅读：170　发布者：

以下文章来源于张伟豪量化学院，作者张伟豪量化学院

我们在搜集样本的过程中，即便是非常小心，仍然难免会出现缺失值。一般我们将缺失值分为三大类：条件随机缺失值（missing at random,MAR）、完全随机缺失值（missing completely at random,MCAR）以及不可忽略缺失值。其中，不可忽略缺失值又称为系统性缺失值或非随时缺失值（not missing at random,NMAR）。

我们在处理缺失值时的方法，也可以大概分成三个类型：一是删除，二是直接估计，三是多重插补(data imputation/data Guess)。

完全排除缺失值

完全排除缺失值属于第一类“删除法”，一般借由排除数据中有缺失值的个案，使数据变得完整。例如，有一个答题者只要某一个变量没有作答，这个样本就会被排除。等于是只要漏答一题，这份问卷就视为无效问卷。

这个方法会产生两个问题：第一，完全排除缺失值会降低样本数，使得统计检验力（power）下降，型II错误会膨胀，使得统计检验不显著的风险增加；第二，回答问卷的人可能选择某些问题不回答，但其他的问题仍然认真填答，全部删除可能导致结论偏误。

成对排除法

成对排除法属于第一类“删除法”，成对排除法将所有的数据全部用来计算平均数与方差，例如，当进行皮尔森相关分析时，变量与变量之间成对的关系会加以估计，只有被估计到变量有遗漏值，该样本才会被排除。

这个方法会存在两个缺点：第一，估计时会造成每个分析的样本数都不一样。如果在SEM 中，更有可能造成协方差矩阵分析无法进行，或产生的相关矩阵其值超出-1~1的范围，从而产生无法正定的协方差矩阵。第二，与完全排除缺失值一样，降低统计检验力，型 II 错误会膨胀，使得统计检验不显著的风险增加。

平均数取代法

平均数取代法大概是使用最广泛的方法，缺失值用该变量的平均数直接取代，这个方法的优点之一是能维持研究分析的最大样本数，不会浪费辛苦收集来的数据；第二个优点是很容易使用。

但这个方法的缺点在于，如果缺失值不在少数，当缺失值以平均数取代时，会导致变量的标准差变小，使得模型估计的显著性增加，容易导致型I错误的产生。

热桌插补法

热桌插补法的缺失值取代技巧是利用其他样本回答题目的模式，寻找相类似的填答者，将其答案置入。因为系统相信雷同模式的回答者，其答案应该也会雷同。

热桌插补法在研究上是非常实务的方法，缺点是它假设有填答者与没有填答者是没有不同的,另外一个缺点是一般统计软件并未提供此种估计方法，你需自行判断。因此，不适合处理缺失值很多的数据。

多重插补法

多重插补法在取代缺失值时会用至少 2 个以上的完整插补数据集来取代。也就是说，原本有缺失值的数据有 100 笔，经插补 5 次，会产生 500 笔数据。MI会产生多个数据插补文件，新插补出来的文件与原来文件不一样的地方在于所有的遗漏值均已被插补值取代。

最大似然插补法

数据本身有缺失值时，可以直接采用 ML得到参数估计值。ML直接对参数进行估计，并没有插补缺失值。在计算的过程中，ML会自动估计缺失值但不会插补出一个没有缺失值的新文件。目前的 SEM 套装软件如 AMOS、LISREL及 MPLUS均内置该功能。

贝式插补法

在过去十年来，社会秘学的研究使用贝氏估计越来越多，传统的统计方法是假设总体参数未知但是固定的，再利用由样本产生的统计量相互比较。而贝氏估计靠的是主观概率的概念。简单地说，贝氏分析将一开始存在的证据转换成先验概率分布。换言之，贝氏估计的总体参数将会依据主观概率的不同而有不同。一旦数据搜集完毕，数学演算会根据贝氏理论产生一个先验概率分布，而后再利用新的数据不断地更新事后概率分布直到事后概率稳定为止。换言之，贝氏是将缺失值视为事后概率的估计值。

转自：“量化研究方法”微信公众号

如有侵权，请联系本站删除！

上一篇： 宏观定量社会学：大数据的人文社科应用
下一篇： 文献 | 薛霄等：计算实验方法的溯源、现状与展望

投稿问答最小化 关闭

结构方程模型处理缺失值的方法

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

结构方程模型处理缺失值的方法

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭