27

大学のプロジェクト用にウィキペディアの全文をダウンロードしたいと考えています。これをダウンロードするには、独自のスパイダーを作成する必要がありますか?それとも、オンラインで入手できるウィキペディアの公開データセットはありますか?

私のプロジェクトの概要を説明するために、興味のあるいくつかの記事の興味深い単語を見つけたいと思います。しかし、これらの興味深い単語を見つけるために、tf/idf を適用して各単語の用語頻度を計算し、選択することを計画しています。頻度の高いもの。しかし、tf を計算するには、ウィキペディア全体での総出現数を知る必要があります。

これはどのように行うことができますか?

4

7 に答える 7

28

ウィキペディアから: http://en.wikipedia.org/wiki/Wikipedia_database

ウィキペディアは、関心のあるユーザーに利用可能なすべてのコンテンツの無料コピーを提供しています。これらのデータベースは、ミラーリング、個人使用、非公式のバックアップ、オフラインでの使用、またはデータベース クエリ (Wikipedia:Maintenance など) に使用できます。すべてのテキスト コンテンツは、Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) および GNU Free Documentation License (GFDL) の下でマルチライセンスされています。画像やその他のファイルは、それぞれの説明ページに記載されているように、さまざまな条件で入手できます。これらのライセンスの遵守に関するアドバイスについては、Wikipedia:著作権を参照してください。

あなたも運が良さそうです。ダンプセクションから:

2010 年 3 月 12 日現在、英語版ウィキペディアの最新の完全なダンプはhttp://download.wikimedia.org/enwiki/20100130/で見つけることができます。 これは、作成された英語版ウィキペディアの最初の完全なダンプです。 2008 年以降。より最近のダンプ (20100312 ダンプなど) は不完全であることに注意してください。

したがって、データはわずか 9 日前のものです :)

于 2010-04-21T13:58:14.250 に答える
11

Mediawiki XML ではなく、テキストのみのバージョンが必要な場合は、ここからダウンロードできます: http://kopiwiki.dsd.sztaki.hu/

于 2012-07-09T10:55:18.050 に答える
4

ダンプのサイズを考慮すると、英語で頻度という単語を使用するか、 MediaWiki APIを使用してランダムにページ (または最も参照されたページ) をポーリングする方がよいでしょう。この API に基づいて (Ruby、C# などで) ボットを構築するためのフレームワークがあり、これが役に立ちます。

于 2010-04-22T15:19:58.357 に答える
1

http://en.wikipedia.org/wiki/Wikipedia_databaseを参照してください

于 2010-04-21T13:59:03.590 に答える
1

http://en.wikipedia.org/wiki/Wikipedia_database#Latest_complete_dump_of_english_wikipedia

于 2010-04-21T13:57:27.400 に答える