python - warc.wet.gz からすべてのペイロードを抽出するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/34612691 2016-01-05T13:17:39.790

2072 次

Common Crawl のウェットファイルからテキストデータを抽出しようとしています。現在、Internet Archieve https://github.com/internetarchive/warcの warc パーサーを使用しています。

import warc
w = warc.open(fileName)
for record in w:
  text = record.payload.read()

ただし、この方法では、ペイロードにあるデータの半分未満しか得られません。ファイル内の各ペイロードにあるすべてのデータを提供できる他のより良い方法はありますか?

1 に答える 1