巨大なテキストファイルをpython

Question

私は巨大なテキストファイル（〜1GB）を持っていますが、残念なことに、私が使用するテキストエディターはそのような大きなファイルを読み取れません。ただし、2つまたは3つの部分に分割できる場合は問題ありません。そのため、演習としてpythonでプログラムを記述したいと思いました。

私がプログラムにしたいことは、ファイルのサイズを見つけ、その数を部分に分割し、各部分について、チャンクでそのポイントまで読み取り、filename。nnnに書き込むことです。出力ファイル、次に次の改行まで読み取り、それを書き込んでから、出力ファイルを閉じます。もちろん、最後の出力ファイルは入力ファイルの最後にコピーされるだけです。

ファイルシステムに関連する主要な部分であるファイルサイズ、チャンクでの読み取りと書き込み、改行までの読み取りについて教えてください。

私はこのコードをテストファーストで作成するので、ワンライナーでない限り、完全な答えを返す必要はありません;-)

Kamil Kisiel · Accepted Answer

ファイルサイズについてはos.stat()を、file.readlines([sizehint])をチェックしてください。これらの2つの関数は、読み取り部分に必要なすべてである必要があります。うまくいけば、書き込みを行う方法を知っています。

James · Answer

linuxには分割コマンドがあります

split -l 100000 file.txt

100,000行サイズの等しいファイルに分割されます

Alex L · Answer

代替方法として、ロギングライブラリを使用します。

>>> import logging.handlers >>> log = logging.getLogger() >>> fh = logging.handlers.RotatingFileHandler("D://filename.txt", maxBytes=2**20*100, backupCount=100) # 100 MB each, up to a maximum of 100 files >>> log.addHandler(fh) >>> log.setLevel(logging.INFO) >>> f = open("D://biglog.txt") >>> while True: ... log.info(f.readline().strip())

ファイルは次のように表示されます。

filename.txt（ファイルの終わり）
ファイル名.txt.1
ファイル名.txt.2
...
filename.txt.10（ファイルの先頭）

これは、巨大なログファイルをRotatingFileHandler実装と一致させるための迅速かつ簡単な方法です。

Ryan Ginstrom · Answer

このジェネレーターメソッドは、メモリを消費することなくラインのスライスを取得する（遅い）方法です。

import itertools def slicefile(filename, start, end): lines = open(filename) return itertools.islice(lines, start, end) out = open("/blah.txt", "w") for line in slicefile("/python27/readme.txt", 10, 15): out.write(line)

inspectorG4dget · Answer

Ryan Ginstromの答えは正しいですが、必要以上に時間がかかります（すでに述べたように）。次に、開いているファイル記述子を繰り返し処理することにより、itertools.isliceへの複数の呼び出しを回避する方法を示します。

def splitfile(infilepath, chunksize): fname, ext = infilepath.rsplit('.',1) i = 0 written = False with open(infilepath) as infile: while True: outfilepath = "{}{}.{}".format(fname, i, ext) with open(outfilepath, 'w') as outfile: for line in (infile.readline() for _ in range(chunksize)): outfile.write(line) written = bool(line) if not written: break i += 1

Joe Koberg · Answer

seek（）と mmap（）を忘れずにファイルにランダムにアクセスしてください。

def getSomeChunk(filename, start, len): fobj = open(filename, 'r+b') m = mmap.mmap(fobj.fileno(), 0) return m[start:start+len]

Ram · Answer

現在、任意のサイズのファイルをチャンクに分割するために使用できるpypiモジュールがあります。これをチェック

https://pypi.org/project/filesplit/

Svante · Answer

wcおよびsplit（それぞれのマンページを参照）を使用して、目的の効果を得ることができます。 bash内：

split -dl$((`wc -l 'filename'|sed 's/ .*$//'` / 3 + 1)) filename filename-chunk.

filename-chunk.00からfilename-chunk.02という名前の同じ行数の3つの部分を生成します（もちろん、最後に丸め誤差があります）。

Mudit Verma · Answer

使用法-split.pyファイル名splitsizeinkb

import os import sys def getfilesize(filename): with open(filename,"rb") as fr: fr.seek(0,2) # move to end of the file size=fr.tell() print("getfilesize: size: %s" % size) return fr.tell() def splitfile(filename, splitsize): # Open original file in read only mode if not os.path.isfile(filename): print("No such file as: \"%s\"" % filename) return filesize=getfilesize(filename) with open(filename,"rb") as fr: counter=1 orginalfilename = filename.split(".") readlimit = 5000 #read 5kb at a time n_splits = filesize//splitsize print("splitfile: No of splits required: %s" % str(n_splits)) for i in range(n_splits+1): chunks_count = int(splitsize)//int(readlimit) data_5kb = fr.read(readlimit) # read # Create split files print("chunks_count: %d" % chunks_count) with open(orginalfilename[0]+"_{id}.".format(id=str(counter))+orginalfilename[1],"ab") as fw: fw.seek(0) fw.truncate()# truncate original if present while data_5kb: fw.write(data_5kb) if chunks_count: chunks_count-=1 data_5kb = fr.read(readlimit) else: break counter+=1 if __name__ == "__main__": if len(sys.argv) < 3: print("Filename or splitsize not provided: Usage: filesplit.py filename splitsizeinkb ") else: filesize = int(sys.argv[2]) * 1000 #make into kb filename = sys.argv[1] splitfile(filename, filesize)

quamrana · Answer

プログラムを作成しましたが、問題なく動作するようです。だから私を始めてくれたKamil Kisielに感謝します。
（FileSizeParts（）はここに示されていない関数であることに注意してください）
後で、バイナリの読み取りを行うバージョンを実行して、それがより速いかどうかを確認することがあります。

def Split(inputFile,numParts,outputName): fileSize=os.stat(inputFile).st_size parts=FileSizeParts(fileSize,numParts) openInputFile = open(inputFile, 'r') outPart=1 for part in parts: if openInputFile.tell()<fileSize: fullOutputName=outputName+os.extsep+str(outPart) outPart+=1 openOutputFile=open(fullOutputName,'w') openOutputFile.writelines(openInputFile.readlines(part)) openOutputFile.close() openInputFile.close() return outPart-1

Ryan · Answer

これは私のために働いた

import os fil = "inputfile" outfil = "outputfile" f = open(fil,'r') numbits = 1000000000 for i in range(0,os.stat(fil).st_size/numbits+1): o = open(outfil+str(i),'w') segment = f.readlines(numbits) for c in range(0,len(segment)): o.write(segment[c]+"
") o.close()

radtek · Answer

これは、subprocessを使用して大きなファイルを分割するために使用できるpythonスクリプトです。

_""" Splits the file into the same directory and deletes the original file """ import subprocess import sys import os SPLIT_FILE_CHUNK_SIZE = '5000' SPLIT_PREFIX_LENGTH = '2' # subprocess expects a string, i.e. 2 = aa, ab, ac etc.. if __name__ == "__main__": file_path = sys.argv[1] # i.e. split -a 2 -l 5000 t/some_file.txt ~/tmp/t/ subprocess.call(["split", "-a", SPLIT_PREFIX_LENGTH, "-l", SPLIT_FILE_CHUNK_SIZE, file_path, os.path.dirname(file_path) + '/']) # Remove the original file once done splitting try: os.remove(file_path) except OSError: pass _

外部から呼び出すことができます：

_import os fs_result = os.system("python file_splitter.py {}".format(local_file_path)) _

subprocessをインポートして、プログラムで直接実行することもできます。

このアプローチの問題は、メモリ使用量が多いことです。subprocessは、プロセスと同じサイズのメモリフットプリントでフォークを作成します。プロセスメモリがすでに重い場合は、実行時に2倍になります。 _os.system_でも同じです。

これは別の純粋なpythonこれを行う方法ですが、巨大なファイルではテストしていませんが、速度は遅くなりますが、メモリに依存します。

_CHUNK_SIZE = 5000 def yield_csv_rows(reader, chunk_size): """ Opens file to ingest, reads each line to return list of rows Expects the header is already removed Replacement for ingest_csv :param reader: dictReader :param chunk_size: int, chunk size """ chunk = [] for i, row in enumerate(reader): if i % chunk_size == 0 and i > 0: yield chunk del chunk[:] chunk.append(row) yield chunk with open(local_file_path, 'rb') as f: f.readline().strip().replace('"', '') reader = unicodecsv.DictReader(f, fieldnames=header.split(','), delimiter=',', quotechar='"') chunks = yield_csv_rows(reader, CHUNK_SIZE) for chunk in chunks: if not chunk: break # Do something with your chunk here _

readlines()を使用した別の例を次に示します。

_""" Simple example using readlines() where the 'file' is generated via: seq 10000 > file """ CHUNK_SIZE = 5 def yield_rows(reader, chunk_size): """ Yield row chunks """ chunk = [] for i, row in enumerate(reader): if i % chunk_size == 0 and i > 0: yield chunk del chunk[:] chunk.append(row) yield chunk def batch_operation(data): for item in data: print(item) with open('file', 'r') as f: chunks = yield_rows(f.readlines(), CHUNK_SIZE) for _chunk in chunks: batch_operation(_chunk) _

Ron Smith · Answer

インポートのファイルサイズの上限は8MBであり、受信するファイルがはるかに大きいため、Dynamics CRMにインポートするためにcsvファイルを分割する必要がありました。このプログラムを使用すると、ユーザーはFileNamesとLinesPerFileを入力し、指定されたファイルを要求された行数に分割できます。それがどれほど速く機能するか私は信じられない！

# user input FileNames and LinesPerFile FileCount = 1 FileNames = [] while True: FileName = raw_input('File Name ' + str(FileCount) + ' (enter "Done" after last File):') FileCount = FileCount + 1 if FileName == 'Done': break else: FileNames.append(FileName) LinesPerFile = raw_input('Lines Per File:') LinesPerFile = int(LinesPerFile) for FileName in FileNames: File = open(FileName) # get Header row for Line in File: Header = Line break FileCount = 0 Linecount = 1 for Line in File: #skip Header in File if Line == Header: continue #create NewFile with Header every [LinesPerFile] Lines if Linecount % LinesPerFile == 1: FileCount = FileCount + 1 NewFileName = FileName[:FileName.find('.')] + '-Part' + str(FileCount) + FileName[FileName.find('.'):] NewFile = open(NewFileName,'w') NewFile.write(Header) NewFile.write(Line) Linecount = Linecount + 1 NewFile.close()

Claudiu · Answer

または、python wcのバージョンと分割：

lines = 0 for l in open(filename): lines += 1

次に、最初のlines/3を1つのファイルに読み取り、次のlines/3を別のファイルに読み取るコードなど。