web-dev-qa-db-ja.com

ScikitはSVCが確率を予測して期待どおりに機能しないことを学習します

SVM分類器を使用して感情分析器を構築しました。確率= Trueでモデルをトレーニングしましたが、確率が得られます。しかし、モデルをピクルスにして後で再度ロードすると、確率は機能しなくなります。

モデル:

from sklearn.svm import SVC, LinearSVC
pipeline_svm = Pipeline([
    ('bow', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('classifier', SVC(probability=True)),])

# pipeline parameters to automatically explore and tune
param_svm = [
  {'classifier__C': [1, 10, 100, 1000], 'classifier__kernel': ['linear']},
  {'classifier__C': [1, 10, 100, 1000], 'classifier__gamma': [0.001, 0.0001], 'classifier__kernel': ['rbf']},
]

grid_svm = GridSearchCV(
    pipeline_svm,
    param_grid=param_svm,
    refit=True,
    n_jobs=-1, 
    scoring='accuracy',
    cv=StratifiedKFold(label_train, n_folds=5),)

svm_detector_reloaded = cPickle.load(open('svm_sentiment_analyzer.pkl', 'rb'))
print(svm_detector_reloaded.predict([""""Today is awesome day"""])[0])

私に与える:

AttributeError:proventity = Falseの場合、predict_probaは使用できません

11
KevinOelen

それが役立つ場合は、次の方法でモデルを酸洗いします。

import pickle
pickle.dump(grid_svm, open('svm_sentiment_analyzer.pkl', 'wb'))

モデルをロードして予測する

svm_detector_reloaded = pickle.load(open('svm_sentiment_analyzer.pkl', 'rb'))
print(svm_detector_reloaded.predict_proba(["Today is an awesome day"])[0])

コードを再実行するために作業し、pandas sents DataFrameでモデルをトレーニングした後、2つの確率で問題なく返されました。

grid_svm.fit(sents.Sentence.values, sents.Positive.values)

モデルのシリアル化に関するベストプラクティス(例:joblibの使用)は、 https://scikit-learn.org/stable/modules/model_persistence.html にあります。

1
Davide Fiocco

使用:SVM(probability=True)

または

grid_svm = GridSearchCV(
    probability=True
    pipeline_svm,
    param_grid=param_svm,
    refit=True,
    n_jobs=-1, 
    scoring='accuracy',
    cv=StratifiedKFold(label_train, n_folds=5),)
0

確率スコアの出力には、CallibratedClassifierCVを使用できます。

_from sklearn.calibration import CalibratedClassifierCV

model_svc = LinearSVC()
model = CalibratedClassifierCV(model_svc) 
model.fit(X_train, y_train)
_

ピクルスを使用してモデルを保存します。

_import pickle
filename = 'linearSVC.sav'
pickle.dump(model, open(filename, 'wb'))
_

Pickle.loadを使用してモデルをロードします。

model = pickle.load(open(filename, 'rb'))

次に、予測を開始します。

_pred_class = model.predict(pred)
probability = model.predict_proba(pred)
_
0
RoboMex