複数のプロセスからの単一ファイルの処理

Question

私は、各行を処理（いくつかの操作を実行）してデータベースに保存したい単一の大きなテキストファイルを持っています。単一の単純なプログラムには時間がかかりすぎるため、複数のプロセスまたはスレッドを介して実行されるようにします。各スレッド/プロセスは、その単一のファイルから異なるデータ（異なる行）を読み取り、それらのデータ（行）に対していくつかの操作を行い、データベースに入れて、最終的にすべてのデータを処理し、データベースに必要なデータがダンプされます。

しかし、私はこれにどのようにアプローチするかを理解することはできません。

jdi · Accepted Answer

探しているのは生産者/消費者パターンです

基本的なスレッドの例

threading module （マルチプロセッシングの代わり）を使用した基本的な例を次に示します

_import threading import Queue import sys def do_work(in_queue, out_queue): while True: item = in_queue.get() # process result = item out_queue.put(result) in_queue.task_done() if __== "__main__": work = Queue.Queue() results = Queue.Queue() total = 20 # start for workers for i in xrange(4): t = threading.Thread(target=do_work, args=(work, results)) t.daemon = True t.start() # produce data for i in xrange(total): work.put(i) work.join() # get the results for i in xrange(total): print results.get() sys.exit() _

ファイルオブジェクトをスレッドと共有しません。 queue にデータの行を指定することにより、それらのタスクを作成します。次に、各スレッドは行を取得して処理し、キューに戻します。

multiprocessing module には、リストや特別な種類のキューなど、データを共有するためのより高度な機能が組み込まれています。マルチプロセッシングとスレッドの使用にはトレードオフがあり、作業がCPUバウンドかIOバウンドかによって異なります。

基本的なマルチプロセッシングプールの例

マルチプロセッシングプールの本当に基本的な例を次に示します

_from multiprocessing import Pool def process_line(line): return "FOO: %s" % line if __== "__main__": pool = Pool(4) with open('file.txt') as source_file: # chunk the work into batches of 4 lines at a time results = pool.map(process_line, source_file, 4) print results _

A Pool は、独自のプロセスを管理する便利なオブジェクトです。開いているファイルはその行を反復処理できるので、pool.map()に渡すことができます。これはループして、ワーカー関数に行を配信します。 Map ブロックし、完了時に結果全体を返します。これは非常に単純化された例であり、pool.map()は作業を完了する前にファイル全体を一度にすべてメモリに読み込むことに注意してください。大きなファイルがあると予想される場合は、このことに留意してください。生産者/消費者の設定を設計するより高度な方法があります。

制限と行の再ソートを伴う手動の「プール」

これは Pool.map の手動の例ですが、イテレート可能オブジェクト全体を一度に消費する代わりに、キューサイズを設定して、できるだけ速く1つずつフィードするようにできますプロセス。また、行番号を追加して、後で追跡し、必要に応じて参照できるようにしました。

_from multiprocessing import Process, Manager import time import itertools def do_work(in_queue, out_list): while True: item = in_queue.get() line_no, line = item # exit signal if line == None: return # fake work time.sleep(.5) result = (line_no, line) out_list.append(result) if __== "__main__": num_workers = 4 manager = Manager() results = manager.list() work = manager.Queue(num_workers) # start for workers pool = [] for i in xrange(num_workers): p = Process(target=do_work, args=(work, results)) p.start() pool.append(p) # produce data with open("source.txt") as f: iters = itertools.chain(f, (None,)*num_workers) for num_and_line in enumerate(iters): work.put(num_and_line) for p in pool: p.join() # get the results # example: [(1, "foo"), (10, "bar"), (0, "start")] print sorted(results) _

mgilson · Answer

これは、私が作成した非常に愚かな例です。

_import os.path import multiprocessing def newlinebefore(f,n): f.seek(n) c=f.read(1) while c!='
' and n > 0: n-=1 f.seek(n) c=f.read(1) f.seek(n) return n filename='gpdata.dat' #your filename goes here. fsize=os.path.getsize(filename) #size of file (in bytes) #break the file into 20 chunks for processing. nchunks=20 initial_chunks=range(1,fsize,fsize/nchunks) #You could also do something like: #initial_chunks=range(1,fsize,max_chunk_size_in_bytes) #this should work too. with open(filename,'r') as f: start_byte=sorted(set([newlinebefore(f,i) for i in initial_chunks])) end_byte=[i-1 for i in start_byte] [1:] + [None] def process_piece(filename,start,end): with open(filename,'r') as f: f.seek(start+1) if(end is None): text=f.read() else: nbytes=end-start+1 text=f.read(nbytes) # process text here. createing some object to be returned # You could wrap text into a StringIO object if you want to be able to # read from it the way you would a file. returnobj=text return returnobj def wrapper(args): return process_piece(*args) filename_repeated=[filename]*len(start_byte) args=Zip(filename_repeated,start_byte,end_byte) pool=multiprocessing.Pool(4) result=pool.map(wrapper,args) #Now take your results and write them to the database. print "".join(result) #I just print it to make sure I get my file back ... _

ここで注意が必要なのは、改行文字でファイルを分割して、行を見逃さないようにします（または部分的な行のみを読み取ります）。次に、各プロセスはファイルの一部を読み取り、メインスレッドによってデータベースに配置できるオブジェクトを返します。もちろん、一度にすべての情報をメモリに保持する必要がないように、この部分をまとめて行う必要がある場合もあります。（これは非常に簡単に達成できます-「args」リストをXチャンクに分割し、pool.map(wrapper,chunk)を呼び出してください- here を参照してください）