web-dev-qa-db-ja.com

Apache Sparkを使用してJSONファイルを寄木細工に変換する方法

Apacheは初めてですSpark 1.3.1。JSONファイルをParquetに変換するにはどうすればよいですか?

9
eddard.stark

Spark 1.4以降

まず、sparkSQLを使用して、JSONファイルをDataFrameに読み取り、次にDataFrameを寄木細工のファイルとして書き込みます。

val df = sqlContext.read.json("path/to/json/file")
df.write.parquet("path/to/parquet/file")

または

df.save("path/to/parquet/file", "parquet")

例と詳細については、 here および here を確認してください。

Spark 1.3.1

val df = sqlContext.jsonFile("path/to/json/file")
df.saveAsParquetFile("path/to/parquet/file")

Windowsに関連する問題とSpark 1.3.1

WindowsでDataFrameを寄木細工のファイルとして保存すると、Java.lang.NullPointerException、説明どおり ここ

その場合は、より新しいSparkバージョンにアップグレードすることを検討してください。

13
Rami