Apacheでの異なるRDDのデータセットの連結spark using scala

Question

Sparkで2つの異なるRDDsのデータセットを連結する方法はありますか？

要件は次のとおりです。同じ列名を持つscalaを使用して2つの中間RDDを作成し、両方のRDDの結果を結合し、UIにアクセスする結果をキャッシュする必要があります。？

RDDのタイプはspark.sql.SchemaRDD

maasg · Accepted Answer

RDD.unionを探していると思います

val rddPart1 = ??? val rddPart2 = ??? val rddAll = rddPart1.union(rddPart2)

例（Spark-Shellで）

val rdd1 = sc.parallelize(Seq((1, "Aug", 30),(1, "Sep", 31),(2, "Aug", 15),(2, "Sep", 10))) val rdd2 = sc.parallelize(Seq((1, "Oct", 10),(1, "Nov", 12),(2, "Oct", 5),(2, "Nov", 15))) rdd1.union(rdd2).collect res0: Array[(Int, String, Int)] = Array((1,Aug,30), (1,Sep,31), (2,Aug,15), (2,Sep,10), (1,Oct,10), (1,Nov,12), (2,Oct,5), (2,Nov,15))

Josep Curto D&#237;az · Answer

同じ問題がありました。列ではなく行ごとに結合するには、unionAllを使用します。

val rddPart1= ??? val rddPart2= ??? val rddAll = rddPart1.unionAll(rddPart2)

データフレームのメソッドの概要を読んだ後で見つけました。詳細情報： https://spark.Apache.org/docs/latest/api/Java/org/Apache/spark/sql/DataFrame.html