Apache Sparkを使用して、次の構造のファイルを読み取りたいと思います。
628344092\t20070220\t200702\t2007\t2007.1370
区切り文字は\ tです。 spark.read.csv()を使用しながらこれを実装するにはどうすればよいですか?
Csvは大きすぎてpandasを使用できません。このファイルを読み取るには時間がかかります。
pandas.read_csv(file, sep = '\t')
どうもありがとう!
sep
の代わりにspark.read.option("delimiter", "\t").csv(file)
またはdelimiter
を使用します。
タブの特殊文字ではなく、文字通り_\t
_である場合は、double _\
_を使用します:spark.read.option("delimiter", "\\t").csv(file)