web-dev-qa-db-ja.com

zlibでgzipストリームを解凍するにはどうすればよいですか?

Gzip形式ファイル(たとえば、gzipプログラムで作成)は、「deflate」圧縮アルゴリズムを使用します。これは、 zlib が使用するものと同じ圧縮アルゴリズムです。ただし、zlibを使用してgzip圧縮ファイルをインフレートすると、ライブラリはZ_DATA_ERROR

Zlibを使用してgzipファイルを解凍するにはどうすればよいですか?

102
Greg Hewgill

Zlibでgzip形式のファイルを解凍するには、次のようにinflateInit2としてwindowBitsパラメーターを指定して16+MAX_WBITSを呼び出します。

inflateInit2(&stream, 16+MAX_WBITS);

これを行わない場合、zlibは不適切なストリーム形式について文句を言います。デフォルトでは、zlibはzlibヘッダーを持つストリームを作成します。指定しない限り、inflateでは異なるgzipヘッダーを認識しません。これはzlib.hヘッダーファイルのバージョン1.2.1以降で文書化されていますが、 zlibマニュアル には含まれていません。ヘッダーファイルから:

windowBitsは、オプションのgzipデコードの場合、15より大きくすることもできます。 windowBitsに32を追加して自動ヘッダー検出を使用してzlibおよびgzipデコードを有効にするか、16を追加してgzip形式のみをデコードします(zlib形式はZ_DATA_ERRORを返します)。 gzipストリームがデコードされている場合、strm->adlerはadler32ではなくcrc32です。

110
Greg Hewgill

python

zlibライブラリサポート

python zlibモジュールもこれらをサポートします。

windowBitsを選択する

ただし、zlibはこれらすべての形式を解凍できます。

  • deflate形式に(圧縮解除)圧縮するには、wbits = -zlib.MAX_WBITSを使用します
  • zlib形式に(圧縮解除)圧縮するには、wbits = zlib.MAX_WBITSを使用します
  • gzip形式に(圧縮解除)圧縮するには、wbits = zlib.MAX_WBITS | 16を使用します

http://www.zlib.net/manual.html#Advanced のドキュメントを参照してください(セクションinflateInit2

テストデータ:

>>> deflate_compress = zlib.compressobj(9, zlib.DEFLATED, -zlib.MAX_WBITS)
>>> zlib_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS)
>>> gzip_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS | 16)
>>> 
>>> text = '''test'''
>>> deflate_data = deflate_compress.compress(text) + deflate_compress.flush()
>>> zlib_data = zlib_compress.compress(text) + zlib_compress.flush()
>>> gzip_data = gzip_compress.compress(text) + gzip_compress.flush()
>>> 

zlibの明らかなテスト:

>>> zlib.decompress(zlib_data)
'test'

deflateのテスト:

>>> zlib.decompress(deflate_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(deflate_data, -zlib.MAX_WBITS)
'test'

gzipのテスト:

>>> zlib.decompress(gzip_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|16)
'test'

データはgzipモジュールとも互換性があります:

>>> import gzip
>>> import StringIO
>>> fio = StringIO.StringIO(gzip_data)
>>> f = gzip.GzipFile(fileobj=fio)
>>> f.read()
'test'
>>> f.close()

自動ヘッダー検出(zlibまたはgzip)

32windowBitsに追加すると、ヘッダー検出がトリガーされます

>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|32)
'test'
>>> zlib.decompress(zlib_data, zlib.MAX_WBITS|32)
'test'

代わりにgzipを使用

Gzipヘッダーを持つgzipデータの場合、gzipモジュールを直接使用できます。しかし フードの下でgzipzlibを使用することに注意してください。

fh = gzip.open('abc.gz', 'rb')
cdata = fh.read()
fh.close()
91
dnozay

Zlibとgzipの構造は異なります。 zlibは RFC 195 を使用し、gzipは RFC 1952 を使用するため、ヘッダーは異なりますが、残りは同じ構造を持ち、 RFC 1951 に従います。

2
josep fon