endog
、exog
是什么?¶
statsmodels 使用 endog
和 exog
作为数据名称,即在估计问题中使用的观测变量。在其他统计软件包或教科书中经常使用的其他名称包括:
endog |
exog |
---|---|
y |
x |
y 变量 |
x 变量 |
左侧 (LHS) |
右侧 (RHS) |
因变量 |
自变量 |
被解释变量 |
解释变量 |
结果 |
设计 |
响应变量 |
解释变量 |
用法在很大程度上取决于领域和模型;但是,我们选择几乎完全使用 endog 和 exog。为了区分这两个术语,一个记忆提示是外生的名称中有一个“x”,就像 x 变量一样。
x 和 y 是有时用于临时变量的单字母名称,本身没有意义。为了避免使用单字母名称,我们决定使用描述性名称,并最终选择了 endog
和 exog
。由于这已经受到批评,这在将来可能会发生变化。
背景¶
以下是这些术语的一些非正式定义:
内生:由系统内部的因素引起
外生:由系统外部的因素引起
内生变量是指经济/计量经济模型中由该模型解释或预测的变量。 http://stats.oecd.org/glossary/detail.asp?ID=794
外生变量是指出现在经济/计量经济模型中,但未被该模型解释的变量(即,它们被模型视为给定的)。 http://stats.oecd.org/glossary/detail.asp?ID=890
在计量经济学和统计学中,这些术语的定义更加正式,并且根据模型使用了外生性的不同定义(弱、强、严格)。statsmodels 中作为变量名称的用法并不总是可以从正式意义上进行解释,但试图遵循相同的原则。
在最简单的形式中,模型将一个观测变量 y 与另一组变量 x 以某种线性或非线性形式相关联
y = f(x, beta) + noise
y = x * beta + noise
但是,为了获得统计模型,我们需要对解释变量 x 和噪声的属性进行额外的假设。许多基本模型的一个标准假设是 x 与噪声不相关。在更一般的定义中,x 是外生的意味着,当我们想要估计 x 对 y 的影响或影响,或者检验关于这种影响的假设时,我们不必考虑 x 中的解释变量是如何产生的,无论是通过设计还是通过从某个潜在分布中随机抽取。
换句话说,y 对我们的模型是内生的,x 对我们的模型是外生的,用于估计。
例如,假设您进行了一项实验,在第二阶段,一些受试者不再可用。辍学与您对实验得出的结论相关吗?换句话说,我们是否可以将辍学决定视为我们问题的外部因素。
用户有责任了解(或查阅教科书以了解)模型的潜在统计假设。例如,如果误差或噪声项在时间上独立分布(或在时间上不相关),则 OLS
中的 exog
可以包含滞后因变量。但是,如果在存在滞后因变量的情况下误差项是自相关的,则 OLS 没有良好的统计特性(不一致),并且正确的模型将是 ARMAX。 statsmodels
具有用于回归诊断的函数,用于测试某些假设是否成立。