非常に大きなpysparkデータフレームがあります。そのため、そのサブセットに対して前処理を実行してから、それらをhdfsに保存します。後で私はそれらすべてを読んで、一緒にマージしたいと思います。ありがとう。
dataFrameをHDFS(Spark 1.6)に書き込みます。
df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
形式オプションには、csv
、parquet
、json
などがあります。
hDFSからDataFrameを読み取る(Spark 1.6)。
sqlContext.read.format('parquet').load('/path/to/file')
formatメソッドは、parquet
、csv
、json
などの引数を取ります。