問題タブ [bz2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
40 参照

python - Python: XML ファイルの EOF を無視する

私は現在、ウィキペディアのダンプから記事のタイトルを取得するプロジェクトに取り組んでいます。ダウンロード可能なファイルは .bz2 形式で、解凍すると約 80 GB の XML ファイルが含まれています。

Python で最初の数行を開いて読み取ることはできますが、スクリプトは 43 行を過ぎると読み取りを停止します。その後、最初の記事ページが開始されます。ページ間にEOFがあると仮定しています。

それを無視して読み続ける方法はありますか?私は本当にそれを解凍したり、ファイルを外部で変更したりしたくありません。

私のコードはこれに似ています: