xml-parsing - ウィキペディアの XML ダンプから静的 HTML ファイルを取得する

Question

ウィキメディアダンプページからダウンロードした膨大な英語版ウィキペディア XML ダンプファイルenwiki-latest-pages-articles.xml.bz2から、比較的最新の静的 HTML ファイルを取得できるようにしたいと考えています。かなりの数のツールが利用できるようですが、それらに関するドキュメントはかなり乏しいので、それらのほとんどが何をするのか、または最新のダンプで最新のものであるかどうかはわかりません。(私は比較的小さな HTML ページ/ファイルをクロールできる Web クローラーを構築するのが得意ですが、SQL と XML は苦手で、少なくともあと 1 年はどちらもうまくいくとは思っていません。)ウィキペディアをオンラインでクロールすることなく、オフラインのダンプから取得した HTML ファイルをクロールできるようにしたいと考えています。

最近のウィキペディアの XML ダンプから静的な HTML ファイルを取得するための優れたツールを知っている人はいますか?

score 4 · Accepted Answer

まず、データをインポートします。次に、 DumpHTMLを使用して HTML ファイルを作成します。理論的には単純ですが、このプロセスは、関連するデータの量と DumpHTML が少し無視されているため、実際には複雑になる可能性があるため、遠慮なく助けを求めてください。

xml-parsing - ウィキペディアの XML ダンプから静的 HTML ファイルを取得する

1 に答える 1

Related

Reference