Sparkデータフレームで構造体をフラット化する方法は？

Question

次の構造のデータフレームがあります。

 |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- details: map (nullable = true) | | |-- key: string | | |-- value: string (valueContainsNull = true)

構造を平坦化し、新しいデータフレームを作成する方法：

 |-- id: long (nullable = true) |-- keyNote: struct (nullable = true) | |-- key: string (nullable = true) | |-- note: string (nullable = true) |-- details: map (nullable = true) | |-- key: string | |-- value: string (valueContainsNull = true)

爆発のようなものがありますが、構造体用ですか？

user6022341 · Accepted Answer

これはSpark 1.6以降で動作します：

df.select(df.col("data.*"))

または

df.select(df.col("data.id"), df.col("data.keyNote"), df.col("data.details"))

steco · Answer

これは、必要な処理を実行し、同じ名前の列を含む複数のネストされた列を処理できる関数です。

def flatten_df(nested_df): flat_cols = [c[0] for c in nested_df.dtypes if c[1][:6] != 'struct'] nested_cols = [c[0] for c in nested_df.dtypes if c[1][:6] == 'struct'] flat_df = nested_df.select(flat_cols + [F.col(nc+'.'+c).alias(nc+'_'+c) for nc in nested_cols for c in nested_df.select(nc+'.*').columns]) return flat_df

前：

root |-- x: string (nullable = true) |-- y: string (nullable = true) |-- foo: struct (nullable = true) | |-- a: float (nullable = true) | |-- b: float (nullable = true) | |-- c: integer (nullable = true) |-- bar: struct (nullable = true) | |-- a: float (nullable = true) | |-- b: float (nullable = true) | |-- c: integer (nullable = true)

後：

root |-- x: string (nullable = true) |-- y: string (nullable = true) |-- foo_a: float (nullable = true) |-- foo_b: float (nullable = true) |-- foo_c: integer (nullable = true) |-- bar_a: float (nullable = true) |-- bar_b: float (nullable = true) |-- bar_c: integer (nullable = true)

Thomas Decaux · Answer

簡単な方法はSQLを使用することです。SQLクエリ文字列を作成して、ネストされた列をフラット列としてエイリアス化できます。

データフレームスキーマを取得する（df.schema()）
スキーマをSQLに変換（for（field：schema().fields()）...

クエリ：

val newDF = sqlContext.sql("SELECT " + sqlGenerated + " FROM source")

Javaの例です。

（私はSQLの方法を好むので、Spark-Shellで簡単にテストでき、クロスランゲージです）。

federicojasson · Answer

この flatten_dfバージョンは、再帰呼び出しを避けるためにスタックを使用して、すべてのレイヤーレベルでデータフレームをフラット化します。

from pyspark.sql.functions import col def flatten_df(nested_df): stack = [((), nested_df)] columns = [] while len(stack) > 0: parents, df = stack.pop() flat_cols = [ col(".".join(parents + (c[0],))).alias("_".join(parents + (c[0],))) for c in df.dtypes if c[1][:6] != "struct" ] nested_cols = [ c[0] for c in df.dtypes if c[1][:6] == "struct" ] columns.extend(flat_cols) for nested_col in nested_cols: projected_df = df.select(nested_col + ".*") stack.append((parents + (nested_col,), projected_df)) return nested_df.select(columns)

例：

from pyspark.sql.types import StringType, StructField, StructType schema = StructType([ StructField("some", StringType()), StructField("nested", StructType([ StructField("nestedchild1", StringType()), StructField("nestedchild2", StringType()) ])), StructField("renested", StructType([ StructField("nested", StructType([ StructField("nestedchild1", StringType()), StructField("nestedchild2", StringType()) ])) ])) ]) data = [ { "some": "value1", "nested": { "nestedchild1": "value2", "nestedchild2": "value3", }, "renested": { "nested": { "nestedchild1": "value4", "nestedchild2": "value5", } } } ] df = spark.createDataFrame(data, schema) flat_df = flatten_df(df) print(flat_df.collect())

プリント：

[Row(some=u'value1', renested_nested_nestedchild1=u'value4', renested_nested_nestedchild2=u'value5', nested_nestedchild1=u'value2', nested_nestedchild2=u'value3')]

Aydin K. · Answer

ステコからのソリューションをもう少し一般化して、2つ以上の構造層で平坦化を行えるようにしました。

def flatten_df(nested_df, layers): flat_cols = [] nested_cols = [] flat_df = [] flat_cols.append([c[0] for c in nested_df.dtypes if c[1][:6] != 'struct']) nested_cols.append([c[0] for c in nested_df.dtypes if c[1][:6] == 'struct']) flat_df.append(nested_df.select(flat_cols[0] + [col(nc+'.'+c).alias(nc+'_'+c) for nc in nested_cols[0] for c in nested_df.select(nc+'.*').columns]) ) for i in range(1, layers): print (flat_cols[i-1]) flat_cols.append([c[0] for c in flat_df[i-1].dtypes if c[1][:6] != 'struct']) nested_cols.append([c[0] for c in flat_df[i-1].dtypes if c[1][:6] == 'struct']) flat_df.append(flat_df[i-1].select(flat_cols[i] + [col(nc+'.'+c).alias(nc+'_'+c) for nc in nested_cols[i] for c in flat_df[i-1].select(nc+'.*').columns]) ) return flat_df[-1]

ただ電話してください：

my_flattened_df = flatten_df(my_df_having_nested_structs, 3)

（2番目のパラメーターは、平坦化するレイヤーのレベルです。私の場合は3です）