wiki - ウィキペディアのページのサブセットを取得するにはどうすればよいですか？

Question

ウィキペディアのページのサブセット（たとえば100MB）を取得するにはどうすればよいですか？データセット全体をXMLとして取得できることがわかりましたが、1ギガまたは2ギガに似ています。そんなにいらない。

map-reduceアルゴリズムの実装を試してみたいと思います。

そうは言っても、100メガバイトに相当するテキストサンプルデータをどこからでも見つけることができれば、それも良いことです。たとえば、Stack Overflowデータベースが利用可能な場合は、適切なサイズになる可能性があります。私は提案を受け入れています。

編集：急流ではないものはありますか？私はそれらを働かせることができません。

score 4 · Accepted Answer

4

stackoverflowデータベースをダウンロードできます。

于 2009-08-24T04:29:18.277 に答える

score 3 · Accepted Answer

クリス、100MBのWebページを取得するまでウィキペディアの「ランダムページ」リンクにアクセスする小さなプログラムを作成することができます：http：//en.wikipedia.org/wiki/Special ：Random 。取得する可能性のある重複を破棄したり、1分あたりに行うリクエストの数を制限したりすることもできます（ただし、記事の一部はWikipediaサーバーではなく中間のWebキャッシュによって提供されます）。しかし、それはかなり簡単なはずです。

score 1 · Accepted Answer

スタックオーバーフローデータベースのコピーを取得したい場合は、クリエイティブコモンズのデータダンプから取得できます。

好奇心から、このすべてのデータを何に使用していますか？

score 1 · Accepted Answer

1つのオプションは、ウィキペディアダンプ全体をダウンロードして、その一部のみを使用することです。全体を解凍してから、単純なスクリプトを使用してファイルを小さなファイルに分割するか（たとえば、ここ）、ディスク容量が心配な場合は、解凍してその場で分割するスクリプトを作成して、その後、任意の段階で解凍プロセスを停止できます。Wikipedia Dump Readerは、Pythonに慣れている場合は、その場で解凍して処理するためのインスピレーションを得ることができます（mparser.pyを参照）。

全部をダウンロードしたくない場合は、スクレイピングのオプションがあります。エクスポート機能はこれに役立つ可能性があり、wikipediabotもこのコンテキストで提案されました。

score 0 · Accepted Answer

0

Webクローラーを使用して、100MBのデータを取得できますか？

于 2009-08-24T05:08:59.223 に答える

score 0 · Accepted Answer

利用可能なウィキペディアのダンプはたくさんあります。なぜあなたは最大の（英語のウィキ）を選びたいのですか？ウィキニュースのアーカイブははるかに小さいです。

score 0 · Accepted Answer

ウィキペディアの記事の1つの小さなサブセットは、「メタ」ウィキ記事で構成されています。これは記事データセット全体と同じXML形式ですが、小さいため（2019年3月時点で約400MB）、ソフトウェア検証（GenSimスクリプトのテストなど）に使用できます。

https://dumps.wikimedia.org/metawiki/latest/

接尾辞が付いているファイルを探します-articles.xml.bz2。

wiki - ウィキペディアのページのサブセットを取得するにはどうすればよいですか？

7 に答える 7

Related

Reference