pysparkデータフレームをHDFSに書き込み、それをデータフレームに読み戻す方法は？

Question

非常に大きなpysparkデータフレームがあります。そのため、そのサブセットに対して前処理を実行してから、それらをhdfsに保存します。後で私はそれらすべてを読んで、一緒にマージしたいと思います。ありがとう。

rogue-one · Accepted Answer

dataFrameをHDFS（Spark 1.6）に書き込みます。

df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

形式オプションには、csv、parquet、jsonなどがあります。

hDFSからDataFrameを読み取る（Spark 1.6）。

sqlContext.read.format('parquet').load('/path/to/file')

formatメソッドは、parquet、csv、jsonなどの引数を取ります。