Statsmodelsを使用しているときに、次の奇妙なエラーが発生します:ValueError: endog must be in the unit interval.
誰かがこのエラーに関する詳細情報を教えてもらえますか? Googleは支援していません。
エラーを生成したコード:
"""
Multiple regression with dummy variables.
"""
import pandas as pd
import statsmodels.api as sm
import pylab as pl
import numpy as np
df = pd.read_csv('cost_data.csv')
df.columns = ['Cost', 'R(t)', 'Day of Week']
dummy_ranks = pd.get_dummies(df['Day of Week'], prefix='days')
cols_to_keep = ['Cost', 'R(t)']
data = df[cols_to_keep].join(dummy_ranks.ix[:,'days_2':])
data['intercept'] = 1.0
print(data)
train_cols = data.columns[1:]
logit = sm.Logit(data['Cost'], data[train_cols])
result = logit.fit()
print(result.summary())
そしてトレースバック:
Traceback (most recent call last):
File "multiple_regression_dummy.py", line 20, in <module>
logit = sm.Logit(data['Cost'], data[train_cols])
File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/site-packages/statsmodels/discrete/discrete_model.py", line 404, in __init__
raise ValueError("endog must be in the unit interval.")
ValueError: endog must be in the unit interval.
ターゲット列の値が1より大きい場合に、このエラーが発生しました。ターゲット列が0から1の間にあることを確認して(ロジスティック回帰に必要)、再試行してください。たとえば、値が1〜5のターゲット列がある場合、4と5を正のクラスにし、1,2,3を負のクラスにします。お役に立てれば。
私が行ったのと同じロジスティック回帰チュートリアルに従っているようです: http://blog.yhat.com/posts/logistic-regression-and-python.html
ロジスティック回帰を当てはめると、同じ値エラーが発生しました。それを実行するために必要なトリックは、値が欠落しているデータのすべての行を確実に削除することでした(N/Aまたはnp.nan)。
これは、次のようにpandas function pandas.notnull()で実行できます。
data = data[pd.notnull(data['Cost'])],
data = data[pd.notnull(data['R(t)'])],
...
そして、すべての変数が同じ量の値を処理するようになるまで続けます。
これが他の誰かに役立つことを願っています!