11

ウィキメディアダンプ ページからダウンロードした膨大な英語版ウィキペディア XML ダンプ ファイルenwiki-latest-pages-articles.xml.bz2から、比較的最新の静的 HTML ファイルを取得できるようにしたいと考えています。かなりの数のツールが利用できるようですが、それらに関するドキュメントはかなり乏しいので、それらのほとんどが何をするのか、または最新のダンプで最新のものであるかどうかはわかりません。(私は比較的小さな HTML ページ/ファイルをクロールできる Web クローラーを構築するのが得意ですが、SQL と XML は苦手で、少なくともあと 1 年はどちらもうまくいくとは思っていません。)ウィキペディアをオンラインでクロールすることなく、オフラインのダンプから取得した HTML ファイルをクロールできるようにしたいと考えています。

最近のウィキペディアの XML ダンプから静的な HTML ファイルを取得するための優れたツールを知っている人はいますか?

4

1 に答える 1

4

まず、データをインポートします次に、 DumpHTMLを使用して HTML ファイルを作成します。理論的には単純ですが、このプロセスは、関連するデータの量と DumpHTML が少し無視されているため、実際には複雑になる可能性があるため、遠慮なく 助けを求めてください

于 2012-05-23T07:21:16.193 に答える