私はウィキペディア ダンプ パーサーをカスタマイズ可能な xml に検索してきました。基本的に、各記事は、記事のセクション プレーン テキストを含むセクション タグのセットに解析する必要があります。私は次の解決策を考え出します
最初のものの問題は、それが Windows でのみ利用可能であり、2 番目の問題は、ネストされた xml スキームでセクションを生成する機能を提供しないことです。mwlibの以前の実装はそのような機能を提供しているように見えますが、残念ながら新しいバージョンはそうではありません。カスタマイズ可能な xml を生成できる Linux 上のウィキペディア xml ダンプ パーサーはありますか?