1

gzip ライブラリを使用して Python で gz ファイルを読み込もうとすると、gunzip を実行しようとした場合とほぼ同じ方法でエラーが生成されます。ただし、perl でこれを行うことは可能です。なぜなら、それが使用するライブラリが、読み取られているファイルのクリーンな EOF を追加でチェックするとは思わないからです。

私の質問は、Pythonでそのようなファイルを読み取るためのオプションまたは代替ライブラリがあるか、それともperlでこれを行う必要があるだけですか?

4

2 に答える 2

3

これには標準の Python ライブラリを使用できますが、無傷のファイルよりも不器用です。

>>> import zlib
>>> compressed=zlib.compress(str(range(200)))
>>> len(compressed)
375
>>> trunc=compressed[:50]
>>> zlib.decompress(trunc)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -5 while decompressing data: incomplete or truncated stream
>>> d=zlib.decompressobj()
>>> d.decompress(trunc)
'[0, 1, 2, 3, 4, 5, 6, 7, 8, 9'
>>> d.flush()
''

decompressobj.flush() は最後のデータを要求するため、入力ストリームが終了した後にのみ呼び出すことに注意してください (またはコピー - decompressobj.copy() メソッドがあります)。decompressobj.decompress() 呼び出しで圧縮データを好きなだけフィードできます。

>>> d=zlib.decompressobj()
>>> for i in range(0,140,10):
...   print repr(d.decompress(compressed[i:i+10]))
...
''
''
''
'[0, 1, 2, 3, 4'
', 5, 6, 7, 8, 9'
', 10, 11, 12, 13, 14, 15, 16, '
'17, 18, 19, 20, 21, 22, 23, '
'24, 25, 26, 27, 28, 29, 3'
'0, 31, 32, 33, 34, 35, 36, '
'37, 38, 39, 40, 41, 42, 4'
'3, 44, 45, 46, 47, 48, 49, '
'50, 51, 52, 53, 54, 55, 5'
'6, 57, 58, 59, 60, 61, 62, 6'
'3, 64, 65, 66, 67, 68, 6'
>>> d.flush()
''

(flush() が実際に何かを返すのを見たことはありませんが、これはおそらく、これが非常に単純なデータ サンプルであるためです。)

編集:私は1つのポイントを逃しました。gzip ファイルには、gzip モジュールが通常処理するヘッダーがあるため、zlib への raw アクセスは gzip ファイルを直接読み取ることはありません。GzipFile を使用して小さなチャンクで読み取る方が簡単な場合があります。

于 2013-10-01T13:31:55.467 に答える