web-dev-qa-db-ja.com

pysparkデータフレームをHDFSに書き込み、それをデータフレームに読み戻す方法は?

非常に大きなpysparkデータフレームがあります。そのため、そのサブセットに対して前処理を実行してから、それらをhdfsに保存します。後で私はそれらすべてを読んで、一緒にマージしたいと思います。ありがとう。

8
Ajg
  • dataFrameをHDFS(Spark 1.6)に書き込みます。

    df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
    

形式オプションには、csvparquetjsonなどがあります。

  • hDFSからDataFrameを読み取る(Spark 1.6)。

    sqlContext.read.format('parquet').load('/path/to/file') 
    

formatメソッドは、parquetcsvjsonなどの引数を取ります。

7
rogue-one