ウィキメディアダンプ ページからダウンロードした膨大な英語版ウィキペディア XML ダンプ ファイルenwiki-latest-pages-articles.xml.bz2から、比較的最新の静的 HTML ファイルを取得できるようにしたいと考えています。かなりの数のツールが利用できるようですが、それらに関するドキュメントはかなり乏しいので、それらのほとんどが何をするのか、または最新のダンプで最新のものであるかどうかはわかりません。(私は比較的小さな HTML ページ/ファイルをクロールできる Web クローラーを構築するのが得意ですが、SQL と XML は苦手で、少なくともあと 1 年はどちらもうまくいくとは思っていません。)ウィキペディアをオンラインでクロールすることなく、オフラインのダンプから取得した HTML ファイルをクロールできるようにしたいと考えています。
最近のウィキペディアの XML ダンプから静的な HTML ファイルを取得するための優れたツールを知っている人はいますか?