web-dev-qa-db-ja.com

MLLibモデルをApacheSparkに保存してロードする方法は?

Apacheで分類モデルをトレーニングしましたSpark(pysparkを使用)。モデルをオブジェクトLogisticRegressionModelに格納しました。次に、予測を行います。新しいデータ。モデルを保存し、予測を行うために新しいプログラムに読み戻したい。モデルの保存方法について何か考えはありますか?おそらくピクルスを考えていますが、私は両方の初心者です。 pythonとSparkなので、コミュニティの意見を聞きたいです。

10
berto77

mllibモデルの save method を使用して、モデルを保存できます。

# let lrm be a LogisticRegression Model
lrm.save(sc, "lrm_model.model")

保存後、別のアプリケーションにロードできます。

sameModel = LogisticRegressionModel.load(sc, "lrm_model.model")

@ zero323が前に述べたように、これを達成する別の方法があり、 予測モデルマークアップ言語(PMML) を使用することです。

は、データマイニンググループによって開発されたXMLベースのファイル形式であり、アプリケーションがデータマイニングおよび機械学習アルゴリズムによって生成されたモデルを記述および交換する方法を提供します。

10