广义估计方程

广义估计方程估计面板、集群或重复测量数据的广义线性模型,当观察值可能在集群内相关但在集群间不相关时。它支持估计与广义线性模型 (GLM) 相同的单参数指数族。

有关命令和参数,请参见 模块参考

示例

以下展示了使用癫痫发作数据在集群内使用可交换相关性的泊松回归。

In [1]: import statsmodels.api as sm

In [2]: import statsmodels.formula.api as smf

In [3]: data = sm.datasets.get_rdataset('epil', package='MASS').data

In [4]: fam = sm.families.Poisson()

In [5]: ind = sm.cov_struct.Exchangeable()

In [6]: mod = smf.gee("y ~ age + trt + base", "subject", data,
   ...:               cov_struct=ind, family=fam)
   ...: 

In [7]: res = mod.fit()

In [8]: print(res.summary())
                               GEE Regression Results                              
===================================================================================
Dep. Variable:                           y   No. Observations:                  236
Model:                                 GEE   No. clusters:                       59
Method:                        Generalized   Min. cluster size:                   4
                      Estimating Equations   Max. cluster size:                   4
Family:                            Poisson   Mean cluster size:                 4.0
Dependence structure:         Exchangeable   Num. iterations:                     2
Date:                     Thu, 03 Oct 2024   Scale:                           1.000
Covariance type:                    robust   Time:                         16:09:51
====================================================================================
                       coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------
Intercept            0.5730      0.361      1.589      0.112      -0.134       1.280
trt[T.progabide]    -0.1519      0.171     -0.888      0.375      -0.487       0.183
age                  0.0223      0.011      1.960      0.050    2.11e-06       0.045
base                 0.0226      0.001     18.451      0.000       0.020       0.025
==============================================================================
Skew:                          3.7823   Kurtosis:                      28.6672
Centered skew:                 2.7597   Centered kurtosis:             21.9865
==============================================================================

可以在 Wiki 上找到 GEE 使用的几个笔记本示例:Wiki 中的 GEE 笔记本

参考文献

  • KY Liang 和 S Zeger。“使用广义线性模型进行纵向数据分析”。Biometrika (1986) 73 (1): 13-22。

  • S Zeger 和 KY Liang。“离散和连续结果的纵向数据分析”。生物统计学 第 42 卷,第 1 期(1986 年 3 月),第 121-130 页

  • A Rotnitzky 和 NP Jewell (1990)。“集群相关数据的半参数广义线性模型中回归参数的假设检验”,Biometrika,77,485-497。

  • Xu Guo 和 Wei Pan (2002)。“GEE 中得分检验的小样本性能”。http://www.sph.umn.edu/faculty1/wp-content/uploads/2012/11/rr2002-013.pdf

  • LA Mancl LA, TA DeRouen (2001)。GEE 协方差估计量,具有改进的小样本属性。生物统计学。2001 年 3 月;57(1):126-34。

模块参考

模型类

GEE(endog, exog, groups[, time, family, ...])

使用广义估计方程的边缘回归模型。

NominalGEE(endog, exog, groups[, time, ...])

使用 GEE 的名义响应边缘回归模型。

OrdinalGEE(endog, exog, groups[, time, ...])

使用 GEE 的序数响应边缘回归模型

QIF(endog, exog, groups[, family, ...])

使用二次推理函数 (QIF) 拟合回归模型。

结果类

GEEResults(model, params, cov_params, scale)

此类总结了使用 GEE 的边缘回归模型的拟合。

GEEMargins(results, args[, kwargs])

使用 GEE 拟合的回归模型的估计边缘效应。

QIFResults(model, params, cov_params, scale)

QIF 回归的结果类

依赖结构

当前实现的依赖结构是

CovStruct([cov_nearest_method])

相关性和协方差结构的基类。

Autoregressive([dist_func, grid])

一阶自回归工作依赖结构。

可交换的()

可交换的工作依赖结构。

GlobalOddsRatio(endog_type)

估计具有序数或名义数据的 GEE 的全局优势比。

Independence([cov_nearest_method])

独立工作依赖结构。

Nested([cov_nearest_method])

嵌套工作依赖结构。

分布族与 GLM 相同,当前实现的是

Family(link, variance[, check_link])

单参数指数族的父类。

Binomial([link, check_link])

二项式指数族分布。

Gamma([link, check_link])

Gamma 指数族分布。

Gaussian([link, check_link])

高斯指数族分布。

InverseGaussian([link, check_link])

逆高斯指数族。

NegativeBinomial([link, alpha, check_link])

负二项式指数族 (对应于 NB2)。

Poisson([link, check_link])

泊松指数族。

Tweedie([link, var_power, eql, check_link])

Tweedie 族。

连接函数与 GLM 相同,目前已实现以下函数。并非所有连接函数都适用于每个分布族。可通过以下方式获取可用连接函数的列表:

>>> sm.families.family.<familyname>.links

连接()

一参数指数族的通用连接函数。

CDFLink([dbn])

使用 scipy.stats 分布的 CDF

CLogLog()

对数对数互补变换

Log()

对数变换

Logit()

logit 变换

NegativeBinomial([alpha])

负二项式连接函数

Power([power])

幂变换

Cauchy()

柯西 (标准柯西 CDF) 变换

Identity()

恒等变换

InversePower()

逆变换

InverseSquared()

逆平方变换

Probit([dbn])

probit (标准正态 CDF) 变换


最后更新时间:2024 年 10 月 3 日