3テラバイトの.gzファイルがあり、その非圧縮コンテンツをC++プログラムで1行ずつ読み取りたいと考えています。ファイルは非常に大きいので、メモリに完全にロードすることは避けたいと思います。
誰かがそれを行う簡単な例を投稿できますか?
ほとんどの場合、ZLibのdeflateを使用する必要があります。例は、彼らの site から入手できます。
または、 BOOST C++ラッパー をご覧ください。
BOOSTページの例(ファイルからデータを解凍し、標準出力に書き込みます)
#include <fstream>
#include <iostream>
#include <boost/iostreams/filtering_streambuf.hpp>
#include <boost/iostreams/copy.hpp>
#include <boost/iostreams/filter/zlib.hpp>
int main()
{
using namespace std;
ifstream file("hello.z", ios_base::in | ios_base::binary);
filtering_streambuf<input> in;
in.Push(zlib_decompressor());
in.Push(file);
boost::iostreams::copy(in, cout);
}
定期的に使用されるものについては、おそらく前の提案の1つを使用することをお勧めします。または、
gzcat file.gz | yourprogram
yourprogram
をcinから読み取らせます。これにより、必要に応じてファイルの一部がメモリ内で解凍され、圧縮されていない出力がyourprogram
に送信されます。
zlib を使用して、私はこれらの線に沿って何かをしています:
// return a line in a std::vector< char >
std::vector< char > readline( gzFile f ) {
std::vector< char > v( 256 );
unsigned pos = 0;
for ( ;; ) {
if ( gzgets( f, &v[ pos ], v.size() - pos ) == 0 ) {
// end-of-file or error
int err;
const char *msg = gzerror( f, &err );
if ( err != Z_OK ) {
// handle error
}
break;
}
unsigned read = strlen( &v[ pos ] );
if ( v[ pos + read - 1 ] == '\n' ) {
if ( pos + read >= 2 && v[ pos + read - 2 ] == '\r' ) {
pos = pos + read - 2;
} else {
pos = pos + read - 1;
}
break;
}
if ( read == 0 || pos + read < v.size() - 1 ) {
pos = read + pos;
break;
}
pos = v.size() - 1;
v.resize( v.size() * 2 );
}
v.resize( pos );
return v;
}
EDIT:上記の例で誤ってコピーされた2つの*
を削除しました。 EDIT:v [pos + read-2]で読み取られた範囲外で修正されました
zlib ライブラリは、メモリ内のファイルをブロック単位で解凍することをサポートしているため、ファイルを処理するためにファイル全体を解凍する必要はありません。
* .gzには「行」がないため、これを行うことはできません。
圧縮データに改行がある場合は、解凍する必要があります。すべてのデータを一度に解凍する必要はありません。チャンクで解凍し、改行文字が見つかったときに文字列をメインプログラムに送り返すことができます。 * .gzは zlib を使用して解凍できます。
Chilkat( http://www.chilkatsoft.com/ )には、C++ 、. Net、VB、...アプリケーションから圧縮ファイルを読み取るためのライブラリがあります。
通常のファイルとzipファイルを1行ずつ読み取ることができるコードを次に示します。
char line[0x10000];
FILE *infile=open_file(file);
bool gzipped=endsWith(file, ".gz");
if(gzipped)
init_gzip_stream(infile,&line[0]);
while (readLine(infile,line,gzipped)) {
if(line[0]==0)continue;// skip gzip new_block
printf(line);
}
#include <zlib.h>
#define CHUNK 0x100
#define OUT_CHUNK CHUNK*100
unsigned char gzip_in[CHUNK];
unsigned char gzip_out[OUT_CHUNK];
///* These are parameters to inflateInit2. See http://zlib.net/manual.html for the exact meanings. */
#define windowBits 15
#define ENABLE_ZLIB_GZIP 32
z_stream strm = {0};
z_stream init_gzip_stream(FILE* file,char* out){// unsigned
strm.zalloc = Z_NULL;
strm.zfree = Z_NULL;
strm.opaque = Z_NULL;
strm.next_in = gzip_in;
strm.avail_in = 0;
strm.next_out = gzip_out;
inflateInit2 (& strm, windowBits | ENABLE_ZLIB_GZIP);
return strm;
}
bool inflate_gzip(FILE* file, z_stream strm,size_t bytes_read){
strm.avail_in = (int)bytes_read;
do {
strm.avail_out = OUT_CHUNK;
inflate (& strm, Z_NO_FLUSH);
// printf ("%s",gzip_out);
}while (strm.avail_out == 0);
if (feof (file)) {
inflateEnd (& strm);
return false;
}
return true;// all OK
}
char* first_line=(char*)&gzip_out[0];
char* current_line=first_line;
char* next_line=first_line;
char hangover[1000];
bool readLine(FILE* infile,char* line,bool gzipped){
if(!gzipped)
return fgets(line, sizeof(line), infile) != NULL;
else{
bool ok=true;
current_line=next_line;
if(!current_line || strlen(current_line)==0 || next_line-current_line>OUT_CHUNK){
current_line=first_line;
size_t bytes_read = fread (gzip_in, sizeof (char), CHUNK, infile);
ok=inflate_gzip(infile,strm,bytes_read);
strcpy(line,hangover);
}
if(ok){
next_line=strstr(current_line,"\n");
if(next_line){
next_line[0]=0;
next_line++;
strcpy(line+strlen(hangover),current_line);
hangover[0]=0;
}else{
strcpy(hangover,current_line);
line[0]=0;// skip that one!!
}
}
return ok;
}
}