web-dev-qa-db-ja.com

カスタム区切りCSVリーダーspark

Apache Sparkを使用して、次の構造のファイルを読み取りたいと思います。

628344092\t20070220\t200702\t2007\t2007.1370

区切り文字は\ tです。 spark.read.csv()を使用しながらこれを実装するにはどうすればよいですか?

Csvは大きすぎてpandasを使用できません。このファイルを読み取るには時間がかかります。

pandas.read_csv(file, sep = '\t')

どうもありがとう!

15
inneb

sepの代わりにspark.read.option("delimiter", "\t").csv(file)またはdelimiterを使用します。

タブの特殊文字ではなく、文字通り_\t_である場合は、double _\_を使用します:spark.read.option("delimiter", "\\t").csv(file)

27
T. Gawęda