Sparkの行のフラット化

Question

Scalaを使用してsparkのテストを行っています。通常、次の例のように操作する必要があるjsonファイルを読み取ります。

test.json：

{"a":1,"b":[2,3]}

val test = sqlContext.read.json("test.json")

どうすれば次の形式に変換できますか？

{"a":1,"b":2} {"a":1,"b":3}

zero323 · Accepted Answer

explode関数を使用できます：

scala> import org.Apache.spark.sql.functions.explode import org.Apache.spark.sql.functions.explode scala> val test = sqlContext.read.json(sc.parallelize(Seq("""{"a":1,"b":[2,3]}"""))) test: org.Apache.spark.sql.DataFrame = [a: bigint, b: array<bigint>] scala> test.printSchema root |-- a: long (nullable = true) |-- b: array (nullable = true) | |-- element: long (containsNull = true) scala> val flattened = test.withColumn("b", explode($"b")) flattened: org.Apache.spark.sql.DataFrame = [a: bigint, b: bigint] scala> flattened.printSchema root |-- a: long (nullable = true) |-- b: long (nullable = true) scala> flattened.show +---+---+ | a| b| +---+---+ | 1| 2| | 1| 3| +---+---+