沙箱

此沙箱包含由于各种原因尚未准备好包含在 statsmodels 正式版中的代码。 它包含来自旧 stats.models 代码的模块,这些模块尚未经过测试、验证和更新以适应新的 statsmodels 结构:cox 生存模型、带有重复测量的混合效应模型、广义可加模型和公式框架。 沙箱还包含目前正在开发中的代码,直到其符合 statsmodels 的模式或经过充分测试。

所有沙箱模块都必须显式导入,以表明它们尚未成为 statsmodels 核心的部分。 沙箱代码的质量和测试差异很大。

示例

sandbox.examples 文件夹中有一些示例。 其他示例直接包含在模块中和沙箱的子文件夹中。

模块参考

时间序列分析 tsa

在此部分中,我们开发了对时间序列分析有用的模型和函数。 大多数模型和函数已移至 statsmodels.tsa

移动窗口统计

大多数移动窗口统计量,例如滚动均值、矩(高达 4 阶)、最小值、最大值、均值和方差,都涵盖在 Pandas 的 移动(滚动)统计量/矩 函数中。

movstat.movorder(x[, order, windsize, lag])

移动顺序统计

movstat.movmean(x[, windowsize, lag])

移动窗口均值

movstat.movvar(x[, windowsize, lag])

移动窗口方差

movstat.movmoment(x, k[, windowsize, lag])

非中心矩

回归和方差分析

以下两个方差分析函数完全针对 NIST 平衡单因素方差分析测试数据进行了测试。 anova_oneway 遵循与 scipy.stats 中的单因素方差分析函数相同的模式,但对于严重缩放的问题,精度更高。 anova_ols 生成与单因素方差分析相同的结果,但使用 OLS 模型类。 它还针对 NIST 测试进行验证,但在最坏情况下存在一些缩放问题。 它展示了如何在三行中使用 statsmodels 进行简单的方差分析,并且也最好作为食谱。

anova_oneway(y, x[, seq])

anova_ols(y, x)

以下是一些用于处理虚拟变量和生成具有 OLS 的方差分析结果的辅助函数。 它们最好被认为是食谱,因为它们是针对特定用途编写的。 这些函数最终将被重写或重新组织。

try_ols_anova.data2dummy(x[, returnall])

将类别数组转换为虚拟变量默认情况下会删除最后一个类别的虚拟变量使用 ravel,仅限 1d

try_ols_anova.data2groupcont(x1, x2)

创建虚拟连续变量

try_ols_anova.data2proddummy(x)

从 2d 数组的 2 列创建乘积虚拟变量

try_ols_anova.dropname(ss, li)

从字符串列表中删除名称,要删除的名称位于空格分隔的列表中不会更改原始列表

try_ols_anova.form2design(ss, data)

将字符串公式转换为数据字典

以下是用于组统计的辅助函数,其中组由标签数组定义。 之前组的限定注释也适用于这组函数。

try_catdata.cat2dummy(y[, nonseq])

try_catdata.convertlabels(ys[, indices])

根据多个变量或字符串标签将标签转换为唯一的索引标签 0,1,2,...,nk-1,其中 nk 是不同标签的数量

try_catdata.groupsstats_1d(y, x, labelsunique)

使用 ndimage 获取快速均值和方差

try_catdata.groupsstats_dummy(y, x[, nonseq])

try_catdata.groupstatsbin(factors, values)

使用 np.bincount,假设因素/标签是整数

try_catdata.labelmeanfilter(y, x)

try_catdata.labelmeanfilter_nd(y, x)

try_catdata.labelmeanfilter_str(ys, x)

除了这些函数,sandbox 回归还包含几个示例,这些示例说明了 statsmodels 回归模型的使用。

回归方程组和联立方程

以下是用于拟合联立方程模型。虽然返回的参数已被验证为准确,但此代码仍然处于试验阶段,模型的使用方式很可能会在它们被添加到主代码库之前发生重大变化。

SUR(sys[, sigma, dfk])

表面上无关联回归

Sem2SLS(sys[, indep_endog, instruments])

联立方程的二阶段最小二乘法

杂项

描述性统计信息打印

descstats.sign_test(samp[, mu0])

符号检验

descstats.descstats(data[, cols, axis])

打印一个或多个变量的描述性统计信息。

原始 stats.models

这些都没有完全正常工作。公式框架由 cox 和 mixed 使用。

使用 EM 算法的重复测量混合效应模型

statsmodels.sandbox.mixed

Cox 比例风险模型

statsmodels.sandbox.cox

广义可加模型

statsmodels.sandbox.gam

公式

statsmodels.sandbox.formula


上次更新:2024 年 10 月 3 日