数据集¶
有关当前可用数据集的列表和使用说明,请参阅数据集页面。
许可证¶
为了被考虑纳入 statsmodels,数据集必须是公共领域的,在 BSD 兼容的许可下分发,或者我们必须获得原始作者的许可。
添加数据集:一个示例¶
尼罗河数据测量了 1871 年至 1970 年阿斯旺尼罗河的流量。数据来自 Cobb (1978) 的论文。
**步骤 1**:创建一个目录 datasets/nile/
**步骤 2**:添加 datasets/nile/nile.csv 和一个新文件 datasets/__init__.py,其中包含
from data import *
**步骤 3**:如果 nile.csv 是原始数据的转换/清理版本,请创建一个 nile/src 目录并将原始数据包含在其中。在 nile 案例中,此步骤不是必需的。
**步骤 4**:将 datasets/template_data.py 复制到 nile/data.py。通过填写 COPYRIGHT、TITLE、SOURCE、DESCRSHORT、DESCLONG 和 NOTE 的字符串来编辑 nile/data.py。
COPYRIGHT = """This is public domain."""
TITLE = """Nile River Data"""
SOURCE = """
Cobb, G.W. 1978. The Problem of the Nile: Conditional Solution to a Changepoint
Problem. Biometrika. 65.2, 243-251,
"""
DESCRSHORT = """Annual Nile River Volume at Aswan, 1871-1970""
DESCRLONG = """Annual Nile River Volume at Aswan, 1871-1970. The units of
measurement are 1e9 m^{3}, and there is an apparent changepoint near 1898."""
NOTE = """
Number of observations: 100
Number of variables: 2
Variable name definitions:
year - Year of observation
volume - Nile River volume at Aswan
The data were originally used in Cobb (1987, See SOURCE). The author
acknowledges that the data were originally compiled from various sources by
Dr. Barbara Bell, Center for Astrophysics, Cambridge, Massachusetts. The data
set is also used as an example in many textbooks and software packages.
"""
**步骤 5:**编辑 data.py 中 load 函数的文档字符串以指定将加载哪个数据集。还要编辑 endog 和 exog 属性的路径和索引。在 nile 案例中,没有 exog,因此所有引用 exog 的内容都不会使用。 year 变量也不会使用。
**步骤 6:**编辑 datasets/__init__.py 以导入目录。
就这样!结果可以在 这里 找到以供参考。
最后更新时间:2024 年 10 月 3 日