Pythonで大きなcsvファイルの読み取りを均等なサイズのチャンクに分割するにはどうすればよいですか？

Question

基本的に、私は次のプロセスを持っていました。

import csv reader = csv.reader(open('huge_file.csv', 'rb')) for line in reader: process_line(line)

この関連を参照してください質問。バッチシャーディングを実装するために、100行ごとにプロセスラインを送信したいと思います。

関連する回答の実装に関する問題は、csvオブジェクトが添え字化できず、lenを使用できないことです。

>>> import csv >>> reader = csv.reader(open('dataimport/tests/financial_sample.csv', 'rb')) >>> len(reader) Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: object of type '_csv.reader' has no len() >>> reader[10:] Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: '_csv.reader' object is unsubscriptable >>> reader[10] Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: '_csv.reader' object is unsubscriptable

どうすればこれを解決できますか？

miku · Accepted Answer

readerをlistにラップして、添え字化できるようにします。明らかに、これは非常に大きなファイルで壊れます（以下の更新の代替を参照してください）：

>>> reader = csv.reader(open('big.csv', 'rb')) >>> lines = list(reader) >>> print lines[:100] ...

さらに読む： Pythonでリストを均等なサイズのチャンクに分割するにはどうすればよいですか？

更新1（リストバージョン）：別の可能な方法は、ラインを反復しながら到着するときに、各チャックを処理するだけです。

#!/usr/bin/env python import csv reader = csv.reader(open('4956984.csv', 'rb')) chunk, chunksize = [], 100 def process_chunk(chuck): print len(chuck) # do something useful ... for i, line in enumerate(reader): if (i % chunksize == 0 and i > 0): process_chunk(chunk) del chunk[:] chunk.append(line) # process the remainder process_chunk(chunk)

アップデート2（ジェネレーターバージョン）：ベンチマークは行っていませんが、チャンクジェネレーターを使用することでパフォーマンスを向上できる可能性があります：

#!/usr/bin/env python import csv reader = csv.reader(open('4956984.csv', 'rb')) def gen_chunks(reader, chunksize=100): """ Chunk generator. Take a CSV `reader` and yield `chunksize` sized slices. """ chunk = [] for i, line in enumerate(reader): if (i % chunksize == 0 and i > 0): yield chunk del chunk[:] chunk.append(line) yield chunk for chunk in gen_chunks(reader): print chunk # process chunk # test gen_chunk on some dummy sequence: for chunk in gen_chunks(range(10), chunksize=3): print chunk # process chunk # => yields # [0, 1, 2] # [3, 4, 5] # [6, 7, 8] # [9]

D.Shawley · Answer

すべての.csvファイルに対してこれを行う良い方法はありません。 file.seek を使用してファイルをチャンクに分割し、ファイルのセクションをスキップできるはずです。次に、行の終わりを見つけるために一度に1バイトをスキャンする必要があります。 2つのチャンクを個別に処理できます。次の（テストされていない）コードのようなものがあなたを始めるはずです。

file_one = open('foo.csv') file_two = open('foo.csv') file_two.seek(0, 2) # seek to the end of the file sz = file_two.tell() # fetch the offset file_two.seek(sz / 2) # seek back to the middle chr = '' while chr != '
': chr = file_two.read(1) # file_two is now positioned at the start of a record segment_one = csv.reader(file_one) segment_two = csv.reader(file_two)

segment_oneのトラバースが終了したことをどのように判断できるかわかりません。 CSVに行IDの列がある場合、segment_oneの最初の行の行IDに遭遇すると、segment_twoの処理を停止できます。

debaonline4u · Answer

pandasモジュールを使用して、これらの大きなcsvファイルを処理できます。

df = pd.DataFrame() temp = pd.read_csv('BIG_File.csv', iterator=True, chunksize=1000) df = pd.concat(temp, ignore_index=True)