基于链式方程的多重插补

MICE 模块允许大多数 statsmodels 模型拟合具有独立变量和/或因变量缺失值的数据集,并为拟合参数提供严格的标准误差。基本思想是将每个具有缺失值的变量视为回归中的因变量,并将一些或所有剩余变量作为其预测变量。MICE 过程循环遍历这些模型,依次拟合每个模型,然后使用称为“预测均值匹配”(PMM)的过程从拟合模型确定的预测分布中生成随机抽取。这些随机抽取成为一个插补数据集的插补值。

默认情况下,每个具有缺失变量的变量使用所有其他变量在数据集中主效应的线性回归进行建模。请注意,即使插补模型是线性的,PMM 过程也会保留每个变量的域。因此,例如,如果给定变量的所有观察值都是正数,则该变量的所有插补值将始终为正。用户还可以选择指定用于为每个变量生成插补值的模型。

MICE(model_formula, model_class, data[, ...])

基于链式方程的多重插补。

MICEData(data[, perturbation_method, k_pmm, ...])

包装数据集以允许使用 MICE 处理缺失数据。

MI(imp, model[, model_args_fn, ...])

MI 使用提供的插补器对象执行多重插补。

BayesGaussMI(data[, mean_prior, cov_prior, ...])

使用高斯模型进行贝叶斯插补。

实现细节

在内部,此函数使用 pandas.isnull。从该函数返回 True 的任何内容都将被视为缺失数据。


上次更新:2024 年 10 月 3 日