web-dev-qa-db-ja.com

ValueError:endogは単位間隔内にある必要があります

Statsmodelsを使用しているときに、次の奇妙なエラーが発生します:ValueError: endog must be in the unit interval.誰かがこのエラーに関する詳細情報を教えてもらえますか? Googleは支援していません。

エラーを生成したコード:

"""
Multiple regression with dummy variables. 
"""

import pandas as pd
import statsmodels.api as sm
import pylab as pl
import numpy as np

df = pd.read_csv('cost_data.csv')
df.columns = ['Cost', 'R(t)', 'Day of Week']
dummy_ranks = pd.get_dummies(df['Day of Week'], prefix='days')
cols_to_keep = ['Cost', 'R(t)']
data = df[cols_to_keep].join(dummy_ranks.ix[:,'days_2':])
data['intercept'] = 1.0

print(data)

train_cols = data.columns[1:]
logit = sm.Logit(data['Cost'], data[train_cols])

result = logit.fit()

print(result.summary())

そしてトレースバック:

Traceback (most recent call last):
  File "multiple_regression_dummy.py", line 20, in <module>
    logit = sm.Logit(data['Cost'], data[train_cols])
  File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/site-packages/statsmodels/discrete/discrete_model.py", line 404, in __init__
    raise ValueError("endog must be in the unit interval.")
ValueError: endog must be in the unit interval.
7
Edward Yu

ターゲット列の値が1より大きい場合に、このエラーが発生しました。ターゲット列が0から1の間にあることを確認して(ロジスティック回帰に必要)、再試行してください。たとえば、値が1〜5のターゲット列がある場合、4と5を正のクラスにし、1,2,3を負のクラスにします。お役に立てれば。

16
user5323012

私が行ったのと同じロジスティック回帰チュートリアルに従っているようです: http://blog.yhat.com/posts/logistic-regression-and-python.html

ロジスティック回帰を当てはめると、同じ値エラーが発生しました。それを実行するために必要なトリックは、値が欠落しているデータのすべての行を確実に削除することでした(N/Aまたはnp.nan)。

これは、次のようにpandas function pandas.notnull()で実行できます。

data = data[pd.notnull(data['Cost'])],

data = data[pd.notnull(data['R(t)'])],

...

そして、すべての変数が同じ量の値を処理するようになるまで続けます。

これが他の誰かに役立つことを願っています!

1
CodingCody