ValueError：endogは単位間隔内にある必要があります

Question

Statsmodelsを使用しているときに、次の奇妙なエラーが発生します：ValueError: endog must be in the unit interval.誰かがこのエラーに関する詳細情報を教えてもらえますか？ Googleは支援していません。

エラーを生成したコード：

""" Multiple regression with dummy variables. """ import pandas as pd import statsmodels.api as sm import pylab as pl import numpy as np df = pd.read_csv('cost_data.csv') df.columns = ['Cost', 'R(t)', 'Day of Week'] dummy_ranks = pd.get_dummies(df['Day of Week'], prefix='days') cols_to_keep = ['Cost', 'R(t)'] data = df[cols_to_keep].join(dummy_ranks.ix[:,'days_2':]) data['intercept'] = 1.0 print(data) train_cols = data.columns[1:] logit = sm.Logit(data['Cost'], data[train_cols]) result = logit.fit() print(result.summary())

そしてトレースバック：

Traceback (most recent call last): File "multiple_regression_dummy.py", line 20, in <module> logit = sm.Logit(data['Cost'], data[train_cols]) File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/site-packages/statsmodels/discrete/discrete_model.py", line 404, in __init__ raise ValueError("endog must be in the unit interval.") ValueError: endog must be in the unit interval.

user5323012 · Answer

ターゲット列の値が1より大きい場合に、このエラーが発生しました。ターゲット列が0から1の間にあることを確認して（ロジスティック回帰に必要）、再試行してください。たとえば、値が1〜5のターゲット列がある場合、4と5を正のクラスにし、1,2,3を負のクラスにします。お役に立てれば。

CodingCody · Answer

私が行ったのと同じロジスティック回帰チュートリアルに従っているようです： http://blog.yhat.com/posts/logistic-regression-and-python.html

ロジスティック回帰を当てはめると、同じ値エラーが発生しました。それを実行するために必要なトリックは、値が欠落しているデータのすべての行を確実に削除することでした（N/Aまたはnp.nan）。

これは、次のようにpandas function pandas.notnull（）で実行できます。

data = data[pd.notnull(data['Cost'])], data = data[pd.notnull(data['R(t)'])], ...

そして、すべての変数が同じ量の値を処理するようになるまで続けます。

これが他の誰かに役立つことを願っています！