Common Crawl のウェット ファイルからテキスト データを抽出しようとしています。現在、Internet Archieve https://github.com/internetarchive/warcの warc パーサーを使用しています。
import warc
w = warc.open(fileName)
for record in w:
text = record.payload.read()
ただし、この方法では、ペイロードにあるデータの半分未満しか得られません。ファイル内の各ペイロードにあるすべてのデータを提供できる他のより良い方法はありますか?