カスタム区切りCSVリーダーspark

Question

Apache Sparkを使用して、次の構造のファイルを読み取りたいと思います。

628344092	20070220	200702	2007	2007.1370

区切り文字は\ tです。 spark.read.csv（）を使用しながらこれを実装するにはどうすればよいですか？

Csvは大きすぎてpandasを使用できません。このファイルを読み取るには時間がかかります。

pandas.read_csv(file, sep = '	')

どうもありがとう！

T. Gawęda · Accepted Answer

sepの代わりにspark.read.option("delimiter", " ").csv(file)またはdelimiterを使用します。

タブの特殊文字ではなく、文字通り_ _である場合は、double _\_を使用します：spark.read.option("delimiter", "\t").csv(file)