統計モデルOLS近似からパラメーターを1つだけ取得するのはなぜですか

Question

ここに私がやっていることがあります：

$ python Python 2.7.6 (v2.7.6:3a1db0d2747e, Nov 10 2013, 00:42:54) [GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin >>> import statsmodels.api as sm >>> statsmodels.__version__ '0.5.0' >>> import numpy >>> y = numpy.array([1,2,3,4,5,6,7,8,9]) >>> X = numpy.array([1,1,2,2,3,3,4,4,5]) >>> res_ols = sm.OLS(y, X).fit() >>> res_ols.params array([ 1.82352941])

2つの要素を持つ配列を期待していましたか？！？切片と勾配係数？

behzad.nouri · Accepted Answer

これを試して：

X = sm.add_constant(X) sm.OLS(y,X)

ドキュメントのように：

インターセプトはデフォルトでは含まれていないため、ユーザーが追加する必要があります

statsmodels.tools.tools.add_constant

Tom · Answer

完了するために、これは動作します：

>>> import numpy >>> import statsmodels.api as sm >>> y = numpy.array([1,2,3,4,5,6,7,8,9]) >>> X = numpy.array([1,1,2,2,3,3,4,4,5]) >>> X = sm.add_constant(X) >>> res_ols = sm.OLS(y, X).fit() >>> res_ols.params array([-0.35714286, 1.92857143])

それは私に異なる勾配係数を与えますが、私たちは今、切片を持っているのでその数字を推測します。

sup · Answer

これを試して、それは私のために働いた：

import statsmodels.formula.api as sm from statsmodels.api import add_constant X_train = add_constant(X_train) X_test = add_constant(X_test) model = sm.OLS(y_train,X_train) results = model.fit() y_pred=results.predict(X_test) results.params

lukearmistead · Answer

0.6.1を実行していますが、「add_constant」関数がstatsmodels.toolsモジュールに移動されたようです。私が実行したものは次のとおりです：

res_ols = sm.OLS(y, statsmodels.tools.add_constant(X)).fit()

R.jzadeh · Answer

私はコードX = sm.add_constant(X)を追加しましたが、pythonはインターセプト値を返しませんでしたので、小さな代数を使用してコードで自分で行うことにしました。

このコードは、35個のサンプル、7個の特徴、および方程式に特徴として追加した1つのインターセプト値の回帰を計算します。

import statsmodels.api as sm from sklearn import datasets ## imports datasets from scikit-learn import numpy as np import pandas as pd x=np.empty((35,8)) # (numSamples, oneIntercept + numFeatures)) feature_names = np.empty((8,)) y = np.empty((35,)) dbfv = open("dataset.csv").readlines() interceptConstant = 1; i = 0 # reading data and writing in numpy arrays while i<len(dbfv): cells = dbfv[i].split(",") j = 0 x[i][j] = interceptConstant feature_names[j] = str(j) while j<len(cells)-1: x[i][j+1] = cells[j] feature_names[j+1] = str(j+1) j += 1 y[i] = cells[len(cells)-1] i += 1 # creating dataframes df = pd.DataFrame(x, columns=feature_names) target = pd.DataFrame(y, columns=["TARGET"]) X = df y = target["TARGET"] model = sm.OLS(y, X).fit() print(model.params) # predictions = model.predict(X) # make the predictions by the model # Print out the statistics print(model.summary())