私は現在、ウィキペディアのダンプから記事のタイトルを取得するプロジェクトに取り組んでいます。ダウンロード可能なファイルは .bz2 形式で、解凍すると約 80 GB の XML ファイルが含まれています。
Python で最初の数行を開いて読み取ることはできますが、スクリプトは 43 行を過ぎると読み取りを停止します。その後、最初の記事ページが開始されます。ページ間にEOFがあると仮定しています。
それを無視して読み続ける方法はありますか?私は本当にそれを解凍したり、ファイルを外部で変更したりしたくありません。
私のコードはこれに似ています:
import bz2
dump = bz2.BZ2File(path, "r")
i = 0
for line in dump:
print(type(line))
print(line)
if i <= 1000:
i+=1
else:
break
dump.close()