3

Common Crawl のウェット ファイルからテキスト データを抽出しようとしています。現在、Internet Archieve https://github.com/internetarchive/warcの warc パーサーを使用しています。

import warc
w = warc.open(fileName)
for record in w:
  text = record.payload.read()

ただし、この方法では、ペイロードにあるデータの半分未満しか得られません。ファイル内の各ペイロードにあるすべてのデータを提供できる他のより良い方法はありますか?

4

1 に答える 1