プログラムでSpark ML / pysparkに特徴ベクトルを作成する

Question

複数の数値列に機能がある場合、pysparkのDataFrameでML（KMeansなど）を実行する簡潔な方法があるかどうか疑問に思っています。

つまりIrisデータセットの場合：

(a1=5.1, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setosa', binomial_label=1)

機能ベクトルを新しい列として手動で追加し、元の列をコードで繰り返しハードコーディングして、DataSetを再作成せずにKMeansを使用したいと思います。

私が改善したい解決策：

from pyspark.mllib.linalg import Vectors from pyspark.sql.types import Row from pyspark.ml.clustering import KMeans, KMeansModel iris = sqlContext.read.parquet("/opt/data/iris.parquet") iris.first() # Row(a1=5.1, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setosa', binomial_label=1) df = iris.map(lambda r: Row( id = r.id, a1 = r.a1, a2 = r.a2, a3 = r.a3, a4 = r.a4, label = r.label, binomial_label=r.binomial_label, features = Vectors.dense(r.a1, r.a2, r.a3, r.a4)) ).toDF() kmeans_estimator = KMeans()\ .setFeaturesCol("features")\ .setPredictionCol("prediction")\ kmeans_transformer = kmeans_estimator.fit(df) predicted_df = kmeans_transformer.transform(df).drop("features") predicted_df.first() # Row(a1=5.1, a2=3.5, a3=1.4, a4=0.2, binomial_label=1, id=u'id_1', label=u'Iris-setosa', prediction=1)

私は次のような解決策を探しています：

feature_cols = ["a1", "a2", "a3", "a4"] prediction_col_name = "prediction" <dataframe independent code for KMeans> <New dataframe is created, extended with the `prediction` column.>

zero323 · Accepted Answer

VectorAssembler を使用できます：

from pyspark.ml.feature import VectorAssembler ignore = ['id', 'label', 'binomial_label'] assembler = VectorAssembler( inputCols=[x for x in df.columns if x not in ignore], outputCol='features') assembler.transform(df)

ML Pipelineを使用してk-meansと組み合わせることができます。

from pyspark.ml import Pipeline pipeline = Pipeline(stages=[assembler, kmeans_estimator]) model = pipeline.fit(df)