统计 stats
¶
本节收集了各种统计检验和工具。一些可以独立于任何模型使用,一些则旨在作为模型和模型结果的扩展。
API 警告:此类别中的函数和对象分散在各个模块中,并且可能仍在移动。我们预计将来统计测试将返回具有更多信息报告的类实例,而不仅仅是原始数字。
残差诊断和规范检验¶
|
计算 Durbin-Watson 统计量。 |
|
Jarque-Bera 正态性检验。 |
|
正态性综合检验 |
|
计算 medcouple 稳健偏度度量。 |
|
计算 Kim & White 中的四个偏度度量 |
|
计算 Kim & White 中的四个峰度度量 |
|
假设数据服从正态分布,计算 Kim 和 White 中稳健峰度度量的期望值。 |
|
Breusch-Godfrey 残差自相关的拉格朗日乘数检验。 |
|
残差自相关的 Ljung-Box 检验。 |
|
自相关的拉格朗日乘数检验。 |
|
基于 ols 残差的参数稳定性 Cusum 检验。 |
|
ols 参数稳定性检验,参数中断,Hansen 1992 |
|
使用残差和 Cusum 检验统计量计算递归 ols |
|
计算非嵌套模型的 Cox 检验 |
|
用于比较非嵌套模型的 Davidson-MacKinnon 包含检验 |
|
计算非嵌套模型的 J 检验 |
|
Engle 自回归条件异方差 (ARCH) 检验。 |
|
Breusch-Pagan 异方差拉格朗日乘数检验 |
|
Goldfeld-Quandt 同方差检验。 |
|
White 异方差拉格朗日乘数检验。 |
|
White 的两阶矩设定检验 |
|
Harvey Collier 线性检验 |
|
拉格朗日乘数检验,用于检验函数形式的线性备择假设 |
|
Rainbow 线性检验 |
|
Ramsey 的 RESET 检验,用于检验被忽略的非线性关系 |
离群值和影响度量¶
|
用于计算 OLS 结果的离群值和影响度量的类 |
|
影响度量和离群值度量(实验性) |
|
全局影响度量和离群值度量(实验性) |
|
单个外生变量的方差膨胀因子 (VIF) |
另请参阅回归诊断说明
稳健夹心协方差矩阵¶
以下函数计算参数估计值的协方差矩阵和标准误差,这些值对误差中的异方差性和自相关性具有稳健性。与 LinearModelResults 可用的方法类似,这些方法设计用于 OLS。
|
异方差和自相关稳健协方差矩阵 (Newey-West) |
|
面板 HAC 稳健协方差矩阵 |
|
Driscoll 和 Kraay 面板稳健协方差矩阵 |
|
簇稳健协方差矩阵 |
两组/簇的簇稳健协方差矩阵 |
|
|
异方差稳健协方差矩阵 (White) |
以下是附加到 LinearModelResults 的异方差稳健标准误差的独立版本
|
参见 statsmodels.RegressionResults |
|
参见 statsmodels.RegressionResults |
|
参见 statsmodels.RegressionResults |
|
参见 statsmodels.RegressionResults |
从协方差矩阵中获取标准差 |
拟合优度检验和度量¶
一些单变量分布的拟合优度检验
|
计算幂差异,一类拟合优度检验,作为观测数据和期望数据之间差异的度量。 |
|
对离散分布的随机样本执行卡方检验 |
|
获取离散分布的卡方类型拟合优度检验的区间 |
|
卡方拟合优度检验的效应量 |
|
计算 Anderson-Darling a2 统计量。 |
|
用于检验正态分布(均值和方差未知)的 Anderson-Darling 检验。 |
|
使用 Lilliefors 检验假设的正态或指数分布。 |
|
使用 Lilliefors 检验假设的正态或指数分布。 |
|
使用 Lilliefors 检验假设的正态或指数分布。 |
|
使用 Lilliefors 检验假设的正态或指数分布。 |
非参数检验¶
|
麦克尼马尔检验 |
|
检验 (k, k) 方形列联表的对称性 |
|
中位数/位置相等的卡方检验 |
|
对高于/低于截止值的二元离散数据使用游程检验 |
|
两个样本的 Wald-Wolfowitz 游程检验 |
|
Cochran's Q 检验,用于检验 k 个处理的效应是否相同 |
|
二元序列中游程的类 |
|
符号检验 |
|
x1 的值大于 x2 的概率的统计量和检验。 |
|
两个独立有序样本的随机较大概率。 |
|
等级比较结果 |
将 Cohen's d 效应量转换为随机较大概率。 |
|
|
表示 distr1 随机大于 distr2 的概率。 |
|
计算两个样本的中位秩 |
描述性统计¶
|
数据的扩展描述性统计 |
|
数据的扩展描述性统计 |
评估者间信度和一致性¶
statsmodels 当前可用于评估者间一致性度量和检验的主要函数是 Cohen's Kappa。Fleiss' Kappa 目前仅作为度量实现,但没有相关的结果统计。
|
计算 Cohen's kappa,包括方差和等于零的检验 |
|
Fleiss 和 Randolph 的 kappa 多评分者一致性度量 |
|
将形状为 (subject, rater) 的原始数据转换为 (rater1, rater2) |
|
将形状为 (subject, rater) 的原始数据转换为 (subject, cat_counts) |
多重检验和多重比较程序¶
multipletests 是一个用于 p 值校正的函数,其中也包括 fdrcorrection 中基于 fdr 的 p 值校正。 tukeyhsd 执行用于比较(独立)均值的同步检验。这三个函数已验证。GroupsStats 和 MultiComparison 是方便进行类似于单因素方差分析的多重比较的类,但仍在开发中。
|
多重检验的检验结果和 p 值校正 |
|
错误发现率的 p 值校正 |
|
按组统计(另一个版本) |
|
多重比较检验 |
|
Tukey HSD 检验的结果,以及额外的绘图方法 |
|
使用 TukeyHSD 置信区间计算所有成对比较 |
|
计算 Z 值列表的局部 FDR 值 |
|
(迭代)两阶段线性逐步程序,估计真实假设的数量 |
|
估计零假设 Z 值的高斯分布 |
|
在回归过程中控制 FDR |
用于 FDR 控制的边际相关效应大小。 |
|
用于敲除分析的 OLS 回归。 |
|
|
用于 FDR 控制的前向选择效应大小 |
用于敲除分析的 OLS 回归。 |
|
|
使用任何回归模型进行回归 FDR 分析 |
以下函数尚不公开
|
样本量不等的所有配对的方差校正因子 |
|
从方差和样本量不等的样本中返回所有配对的联合方差 |
|
样本量不等的方差校正因子 |
|
从方差和样本量不等的样本中返回联合方差 |
|
逐步降低方法的类 |
|
|
数组对象表示一个多维、同构的固定大小项数组。 |
|
|
均值的简单有序序列比较 |
|
成对距离矩阵,源自 tukeyhsd |
|
用于 fdrcorrection 的简单经验 cdf |
|
返回 Tukey HSD (Q) 的临界值 |
|
递归检查所有 vals 对的最小距离 |
|
查找所有向上过零点并返回最高点的索引 |
|
查找所有向上过零点并返回最高点的索引 |
|
使用蒙特卡洛方法测试 fdrcorrection |
str(object='') -> str str(bytes_or_buffer[, encoding[, errors]]) -> str |
|
|
从等相关多元正态分布创建随机抽样 |
|
rankdata,等效于 scipy.stats.rankdata |
|
多重检验中的拒绝参考线 |
|
从元组列表中提取分区 |
|
从元组列表中删除作为另一个集合子集的集合 |
|
应该等效于 scipy.stats.tiecorrect |
使用频率权重的基本统计量和 t 检验¶
除了基本统计量(例如带案例权重的数据的均值、方差、协方差和相关性)之外,此处的类还提供用于均值的单样本和双样本检验。t 检验比 scipy.stats 中的 t 检验选项更多,但对数组形状的限制也更多。根据与 t 检验相同的假设提供均值的置信区间。
此外,还可以对单样本和双样本(配对或独立)进行均值等效性检验。这些检验基于 TOST(双单侧检验),其原假设是均值彼此不“接近”。
|
带案例权重的描述性统计量和检验 |
|
用于双样本比较的类 |
|
独立样本 t 检验 |
|
两个独立样本的(非)等效性检验 |
|
两个相关配对样本的(非)等效性检验 |
|
基于正态分布的均值检验,一个或两个样本 |
|
基于正态分布的等效性检验 |
|
基于正态分布 z 检验的置信区间 |
weightstats 还包含基于汇总数据的检验和置信区间
|
基于汇总统计量的通用 t 置信区间 |
|
基于汇总统计量的通用 t 检验 |
|
基于汇总统计量的通用正态置信区间 |
|
基于汇总统计量的通用(正态)z 检验 |
|
基于汇总统计量的通用(正态)z 检验 |
功效和样本量计算¶
power
模块目前实现了 t 检验、基于正态分布的检验、F 检验和卡方拟合优度检验的功效和样本量计算。该实现是基于类的,但该模块也提供了三个快捷函数,tt_solve_power
、tt_ind_solve_power
和 zt_ind_solve_power
来求解功效方程的任何一个参数。
|
两个独立样本 t 检验的统计功效计算 |
|
单样本或配对样本 t 检验的统计功效计算 |
|
单样本卡方检验的统计功效计算 |
|
两个独立样本 z 检验的统计功效计算 |
|
单因素平衡方差分析的 F 检验统计功效计算 |
|
约束条件的通用 F 检验的统计功效计算 |
|
计算正态分布检验统计量的功效 |
|
仅一个尾部相关时的显式样本量计算 |
|
求解单样本 t 检验功效的任何一个参数 |
|
求解双样本 t 检验功效的任何一个参数 |
|
求解双样本 z 检验功效的任何一个参数 |
比例¶
还可以使用 NormalIndPower 进行比例的假设检验、置信区间和效应量计算。
|
二项式比例的置信区间 |
|
比较两个比例的检验的效应量 |
|
执行成功概率为 p 的检验。 |
|
单样本比例二项式检验的拒绝域 |
|
使用二项分布对一个比例进行精确的 TOST 检验 |
|
二项式 TOST 的拒绝域 |
|
多项比例的置信区间。 |
|
基于正态 (z) 检验的比例检验 |
|
基于正态分布的等效性检验 |
|
基于卡方检验的比例检验 |
|
k 个样本所有配对的比例卡方检验 |
|
k 个样本与对照组相比的配对比例卡方检验 |
|
比较两个比例的检验的效应量 |
|
|
|
基于正态分布的比例等效检验的功效 |
|
查找样本大小以获得所需的置信区间长度 |
两个独立样本的统计量 状态:实验性,API 可能更改,0.12 版添加
|
比较两个独立比例的假设检验 |
|
比较两个独立比例的置信区间。 |
|
两个独立比例相等的 z 检验的功效 |
|
基于两个单侧 test_proportions_2indep 的等效性检验 |
|
基于单尾假设正态分布所需的样本量 |
|
两个独立比例的得分检验 |
|
通过反转得分检验计算得分置信区间 |
比率¶
比率的统计函数。目前包括两个独立样本的假设检验。另请参阅示例笔记本以获取概述 泊松比率
状态:实验性,API 可能更改,0.12 版添加,0.14 版重构和增强
单样本统计函数
|
单样本泊松均值或比率的检验 |
|
泊松均值或比率的置信区间 |
|
泊松随机变量分位数的置信区间 |
|
泊松观测值的容忍区间 |
两个独立样本的统计函数
|
比较两个样本泊松强度率的检验。 |
|
两个样本泊松率之比的 E 检验。 |
|
两个独立泊松率之比或差的置信区间。 |
|
基于两个单侧 test_proportions_2indep 的等效性检验 |
|
非等价性检验,泊松的最小效应。 |
统计功效函数
|
两个独立泊松率之比的检验功效。 |
|
两个独立泊松率之比的等价性检验功效。 |
|
两个独立泊松率之差的 z 检验功效。 |
|
两个独立负二项率之比的检验功效。 |
|
两个独立负二项率之比的等价性检验功效。 |
多变量¶
多变量样本的统计函数。
这包括多变量观测样本均值的假设检验和置信区间,以及协方差矩阵结构的假设检验。
状态:实验性,API 可能更改,0.12 版添加
|
单样本多变量均值的 Hotelling 检验 |
|
多变量均值的线性变换的置信区间 |
|
多变量均值的线性变换的置信区间 |
|
两个独立样本的多变量均值的 Hotelling 检验 |
|
单样本协方差等于零协方差的假设检验 |
|
单样本协方差矩阵为块对角矩阵的假设检验。 |
|
单样本协方差矩阵为对角矩阵的假设检验。 |
|
多样本协方差矩阵相等的假设检验。 |
|
单样本假设检验:协方差矩阵是球形的 |
单因素方差分析¶
k 个样本的单因素方差分析的假设检验、置信区间和效应量。
状态:实验性,API 可能更改,0.12 版添加
|
单因素方差分析 |
|
基于汇总统计量的单因素方差分析 |
|
单因素方差分析的等价性检验 (Wellek 方差分析) |
|
单因素方差分析的等价性检验 (Wellek 和扩展) |
|
单因素等价性检验的功效 |
|
单因素等价性检验的经验功效 |
|
单因素方差分析的等尺度、方差或离散度检验 |
|
单因素方差分析的尺度、方差或离散度等价性检验 |
|
单因素方差分析中 F 分布的效应量置信区间 |
|
F 检验中非中心参数的置信区间 |
|
转换 f 系数中的平方效应量 |
|
单因素方差分析中对应于 Cohen's f = nc / nobs 的效应量 |
|
将 Cohen's f-squared 转换为 Wellek 的效应量 (平方根) |
|
将 F 统计量转换为 Wellek 的效应量 eps squared |
|
将 Wellek 的效应量 (平方根) 转换为 Cohen's f-squared |
|
从 F 统计量计算方差分析效应量 |
|
转换数据以进行 Levene 类型检验的方差比较 |
|
模拟单因素等价性检验的功效 (Wellek 方差分析) |
稳稳健统计量、修剪统计量¶
以固定比例修剪的样本的统计量。这包括用于单样本统计量的 TrimmedMean 类。它在 `stats.oneway` 中用于修剪的 “Yuen” 方差分析。
状态:实验性,API 可能更改,0.12 版添加
|
用于修剪和缩尾的单样本统计量的类 |
|
转换数据以进行 Levene 类型检验的方差比较 |
|
从两端修剪观测值后返回数组的均值。 |
|
从数组两端截取一定比例的项。 |
矩助手¶
当存在缺失值时,相关矩阵或协方差矩阵可能不是半正定的。以下函数可用于找到一个正定且接近原始矩阵的相关矩阵或协方差矩阵。其他函数估计空间协方差矩阵和正则化逆协方差或精度矩阵。
|
找到一个接近半正定的相关矩阵 |
|
找到最接近的半正定相关矩阵。 |
|
找到具有因子结构且最接近给定方阵的相关矩阵。 |
|
从数据数组构造一个包含阈值行相关矩阵的稀疏矩阵。 |
|
找到最接近的正(半)定协方差矩阵 |
|
使用 k*I + XX' 形式的因子结构矩阵逼近任意方阵。 |
|
因子分解形式的半正定矩阵表示。 |
|
使用核平均估计多元协方差函数。 |
|
使用逐节点回归估计正则化逆协方差的类 |
这些是用于在中心矩和非中心矩、偏度、峰度和累积量之间进行转换的实用函数。
|
将非中心矩转换为累积量,递归公式产生的累积量与矩的数量相同 |
|
将中心矩转换为非中心矩,使用递归公式,可选择调整第一个矩以返回均值 |
|
将中心矩转换为均值、方差、偏度、峰度 |
|
将非中心矩转换为累积量,递归公式产生的累积量与矩的数量相同 |
|
将非中心矩转换为中心矩,使用递归公式,可选择调整第一个矩以返回均值 |
|
将中心矩转换为均值、方差、偏度、峰度 |
|
将均值、方差、偏度、峰度转换为中心矩 |
|
将均值、方差、偏度、峰度转换为非中心矩 |
|
将协方差矩阵转换为相关矩阵 |
|
给定标准差,将相关矩阵转换为协方差矩阵 |
|
从协方差矩阵中获取标准差 |
中介分析¶
中介分析关注三个关键变量之间的关系:“结果”、“处理”和“中介”。由于中介分析是因果推断的一种形式,因此涉及一些难以或不可能验证的假设。理想情况下,中介分析是在实验环境中进行的,例如本例中处理是随机分配的。人们也经常使用观察数据进行中介分析,其中处理可以被认为是“暴露”。在观察环境中,中介分析背后的假设更难验证。
|
执行中介分析。 |
|
用于保存中介分析结果的类。 |
Oaxaca-Blinder 分解¶
Oaxaca-Blinder 分解(或一些人称之为 Blinder-Oaxaca 分解)试图解释群体均值之间的差距。它使用两个给定回归方程的线性模型来显示哪些可以用回归系数和已知数据解释,哪些是使用相同数据无法解释的。Oaxaca-Blinder 分解有两种类型,二元分解和三元分解,这两种类型都可以在经济学文献中用于讨论群体差异。此方法有助于对歧视或未观察到的效应进行分类。此函数尝试将 STATA 中的 oaxaca 命令的功能移植到 Python。
|
执行 Oaxaca-Blinder 分解的类。 |
|
此类总结 OaxacaBlinder 模型的拟合结果。 |
距离依赖度量¶
距离依赖度量和距离协方差 (dCov) 检验。
|
距离协方差 (dCov) 检验 |
|
计算各种距离依赖统计量。 |
|
距离相关。 |
|
距离协方差。 |
距离方差。 |
元分析¶
用于对样本统计量集合进行基本元分析的函数。
示例可以在笔记本中找到
状态:实验性,API 可能更改,0.12 版添加
|
使用元分析组合效应量 |
|
两个样本二项式比例的效应量 |
|
用于元分析的均值差的效应量 |
|
均值或效应量组合估计的结果 |
该模块还包括用于计算随机效应方差的内部函数。
|
随机效应方差间迭代矩估计 |
|
随机效应方差间 Paule-Mandel 迭代估计 |
|
随机效应方差间一步矩估计 |