4

ウィキペディアのページのサブセット(たとえば100MB)を取得するにはどうすればよいですか?データセット全体をXMLとして取得できることがわかりましたが、1ギガまたは2ギガに似ています。そんなにいらない。

map-reduceアルゴリズムの実装を試してみたいと思います。

そうは言っても、100メガバイトに相当するテキストサンプルデータをどこからでも見つけることができれば、それも良いことです。たとえば、Stack Overflowデータベースが利用可能な場合は、適切なサイズになる可能性があります。私は提案を受け入れています。

編集:急流ではないものはありますか?私はそれらを働かせることができません。

4

7 に答える 7

4

stackoverflowデータベースをダウンロードできます

于 2009-08-24T04:29:18.277 に答える
3

クリス、100MBのWebページを取得するまでウィキペディアの「ランダムページ」リンクにアクセスする小さなプログラムを作成することができます:http://en.wikipedia.org/wiki/Special :Random 。取得する可能性のある重複を破棄したり、1分あたりに行うリクエストの数を制限したりすることもできます(ただし、記事の一部はWikipediaサーバーではなく中間のWebキャッシュによって提供されます)。しかし、それはかなり簡単なはずです。

于 2009-08-24T05:39:29.320 に答える
1

スタックオーバーフローデータベースのコピーを取得したい場合は、クリエイティブコモンズのデータ​​ダンプから取得できます。

好奇心から、このすべてのデータを何に使用していますか?

于 2009-08-24T04:31:41.453 に答える
1

1つのオプションは、ウィキペディアダンプ全体をダウンロードして、その一部のみを使用することです。全体を解凍してから、単純なスクリプトを使用してファイルを小さなファイルに分割するか(たとえば、ここ)、ディスク容量が心配な場合は、解凍してその場で分割するスクリプトを作成して、その後、任意の段階で解凍プロセスを停止できます。Wikipedia Dump Readerは、Pythonに慣れている場合は、その場で解凍して処理するためのインスピレーションを得ることができます(mparser.pyを参照)。

全部をダウンロードしたくない場合は、スクレイピングのオプションがあります。エクスポート機能はこれに役立つ可能性があり、wikipediabotもこのコンテキストで提案されました。

于 2009-08-24T05:06:41.350 に答える
0

Webクローラーを使用して、100MBのデータを取得できますか?

于 2009-08-24T05:08:59.223 に答える
0

利用可能なウィキペディアのダンプはたくさんあります。なぜあなたは最大の(英語のウィキ)を選びたいのですか?ウィキニュースのアーカイブははるかに小さいです。

于 2011-02-24T08:44:10.870 に答える
0

ウィキペディアの記事の1つの小さなサブセットは、「メタ」ウィキ記事で構成されています。これは記事データセット全体と同じXML形式ですが、小さいため(2019年3月時点で約400MB)、ソフトウェア検証(GenSimスクリプトのテストなど)に使用できます。

https://dumps.wikimedia.org/metawiki/latest/

接尾辞が付いているファイルを探します-articles.xml.bz2

于 2019-03-12T19:58:28.553 に答える