誰かがdataframe
をRDD
に変換する方法を教えてください。
単に:
val rows: RDD[Row] = df.rdd
行を別のRDD要素にマッピングする場合は、df.map(row => ...)
を使用してデータフレームをRDDに変換します。例えば
df.map(row => (row(1), row(2)))
dfの最初の列がキーで、dfの2番目の列が値であるペアのRDDを提供します。
私は自分の答えを探していたところ、この投稿を見つけました。
その「df.rdd」を追加すると、完全に正しいというジャンの答えがRDD [Rows]を返します。 RDDを取得したらsplit()を適用する必要があります。そのためには、RDD [Row}をRDD [String]に変換する必要があります
val opt=spark.sql("select tags from cvs").map(x=>x.toString()).rdd