GEE 嵌套协方差结构模拟研究¶
此笔记本是一个模拟研究,说明并评估了 GEE 嵌套协方差结构的性能。
嵌套协方差结构基于嵌套的组序列或“级别”。层次结构中的顶层由 GEE 的 groups
参数定义。后续级别由 GEE 的 dep_data
参数定义。
[1]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
设置协变量数量。
[2]:
p = 5
这些参数定义了每个分组级别的总体方差。
[3]:
groups_var = 1
level1_var = 2
level2_var = 3
resid_var = 4
设置组的数量
[4]:
n_groups = 100
设置每个分组级别上的观察数量。这里,所有数据都是平衡的,即在同一级别上,每个组的大小都相同。
[5]:
group_size = 20
level1_size = 10
level2_size = 5
计算总样本量。
[6]:
n = n_groups * group_size * level1_size * level2_size
构建设计矩阵。
[7]:
xmat = np.random.normal(size=(n, p))
构建标签,显示每个观察值在每个级别上属于哪个组。
[8]:
groups_ix = np.kron(np.arange(n // group_size), np.ones(group_size)).astype(int)
level1_ix = np.kron(np.arange(n // level1_size), np.ones(level1_size)).astype(int)
level2_ix = np.kron(np.arange(n // level2_size), np.ones(level2_size)).astype(int)
模拟随机效应。
[9]:
groups_re = np.sqrt(groups_var) * np.random.normal(size=n // group_size)
level1_re = np.sqrt(level1_var) * np.random.normal(size=n // level1_size)
level2_re = np.sqrt(level2_var) * np.random.normal(size=n // level2_size)
模拟响应变量。
[10]:
y = groups_re[groups_ix] + level1_re[level1_ix] + level2_re[level2_ix]
y += np.sqrt(resid_var) * np.random.normal(size=n)
将所有内容放入数据框中。
[11]:
df = pd.DataFrame(xmat, columns=["x%d" % j for j in range(p)])
df["y"] = y + xmat[:, 0] - xmat[:, 3]
df["groups_ix"] = groups_ix
df["level1_ix"] = level1_ix
df["level2_ix"] = level2_ix
拟合模型。
[12]:
cs = sm.cov_struct.Nested()
dep_fml = "0 + level1_ix + level2_ix"
m = sm.GEE.from_formula(
"y ~ x0 + x1 + x2 + x3 + x4",
cov_struct=cs,
dep_data=dep_fml,
groups="groups_ix",
data=df,
)
r = m.fit()
估计的协方差参数应与上面定义的 groups_var
、level1_var
等相似。
[13]:
r.cov_struct.summary()
[13]:
方差 | |
---|---|
groups_ix | 1.038792 |
level1_ix | 1.973529 |
level2_ix | 3.045533 |
残差 | 4.000621 |
上次更新:2024 年 10 月 3 日