Spark DataFrame in PythonからlabeledPointsを作成します

Question

pythonの.map()関数はsparkデータフレームからlabeledPointsのセットを作成するために使用しますか？ラベル/結果が最初の列ではないが、その列名「ステータス」を参照できる場合の表記

この.map（）関数を使用してPythonデータフレームを作成します：

_def parsePoint(line): listmp = list(line.split('	')) dataframe = pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose() dataframe.insert(0, 'status', dataframe['accepted']) if 'NULL' in dataframe.columns: dataframe = dataframe.drop('NULL', axis=1) if '' in dataframe.columns: dataframe = dataframe.drop('', axis=1) if 'rejected' in dataframe.columns: dataframe = dataframe.drop('rejected', axis=1) if 'accepted' in dataframe.columns: dataframe = dataframe.drop('accepted', axis=1) return dataframe _

Reduce関数がすべてのSparkデータフレームを再結合した後、それをPandasデータフレームに変換します。

_parsedData=sqlContext.createDataFrame(parsedData) _

しかし、PythonでこれからlabledPointsを作成するにはどうすればよいですか？別の.map()関数かもしれないと思いますか？

zero323 · Accepted Answer

すでに数値機能があり、追加の変換を必要としない場合は、VectorAssemblerを使用して独立変数を含む列を組み合わせることができます。

from pyspark.ml.feature import VectorAssembler assembler = VectorAssembler( inputCols=["your", "independent", "variables"], outputCol="features") transformed = assembler.transform(parsedData)

次に、簡単にマップできます。

from pyspark.mllib.regression import LabeledPoint from pyspark.sql.functions import col (transformed.select(col("outcome_column").alias("label"), col("features")) .rdd .map(lambda row: LabeledPoint(row.label, row.features)))

Spark 2.0 mlとmllib APIは互換性がなくなり、後者は非推奨と削除に向けて進んでいます。それでもこれが必要な場合は、変換する必要がありますml.Vectorsからmllib.Vectors。

from pyspark.mllib import linalg as mllib_linalg from pyspark.ml import linalg as ml_linalg def as_old(v): if isinstance(v, ml_linalg.SparseVector): return mllib_linalg.SparseVector(v.size, v.indices, v.values) if isinstance(v, ml_linalg.DenseVector): return mllib_linalg.DenseVector(v.values) raise ValueError("Unsupported type {0}".format(type(v)))

と地図：

lambda row: LabeledPoint(row.label, as_old(row.features)))