text - ウィキペディアテキストダウンロード

Question

大学のプロジェクト用にウィキペディアの全文をダウンロードしたいと考えています。これをダウンロードするには、独自のスパイダーを作成する必要がありますか?それとも、オンラインで入手できるウィキペディアの公開データセットはありますか?

私のプロジェクトの概要を説明するために、興味のあるいくつかの記事の興味深い単語を見つけたいと思います。しかし、これらの興味深い単語を見つけるために、tf/idf を適用して各単語の用語頻度を計算し、選択することを計画しています。頻度の高いもの。しかし、tf を計算するには、ウィキペディア全体での総出現数を知る必要があります。

これはどのように行うことができますか？

score 28 · Accepted Answer

ウィキペディアから: http://en.wikipedia.org/wiki/Wikipedia_database

ウィキペディアは、関心のあるユーザーに利用可能なすべてのコンテンツの無料コピーを提供しています。これらのデータベースは、ミラーリング、個人使用、非公式のバックアップ、オフラインでの使用、またはデータベースクエリ (Wikipedia:Maintenance など) に使用できます。すべてのテキストコンテンツは、Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) および GNU Free Documentation License (GFDL) の下でマルチライセンスされています。画像やその他のファイルは、それぞれの説明ページに記載されているように、さまざまな条件で入手できます。これらのライセンスの遵守に関するアドバイスについては、Wikipedia:著作権を参照してください。

あなたも運が良さそうです。ダンプセクションから：

2010 年 3 月 12 日現在、英語版ウィキペディアの最新の完全なダンプはhttp://download.wikimedia.org/enwiki/20100130/で見つけることができます。これは、作成された英語版ウィキペディアの最初の完全なダンプです。 2008 年以降。より最近のダンプ (20100312 ダンプなど) は不完全であることに注意してください。

したがって、データはわずか 9 日前のものです :)

score 11 · Accepted Answer

Mediawiki XML ではなく、テキストのみのバージョンが必要な場合は、ここからダウンロードできます: http://kopiwiki.dsd.sztaki.hu/

score 4 · Accepted Answer

ダンプのサイズを考慮すると、英語で頻度という単語を使用するか、 MediaWiki APIを使用してランダムにページ (または最も参照されたページ) をポーリングする方がよいでしょう。この API に基づいて (Ruby、C# などで) ボットを構築するためのフレームワークがあり、これが役に立ちます。

score 1 · Accepted Answer

1

http://en.wikipedia.org/wiki/Wikipedia_databaseを参照してください

于 2010-04-21T13:59:03.590 に答える

score 1 · Accepted Answer

1

http://en.wikipedia.org/wiki/Wikipedia_database#Latest_complete_dump_of_english_wikipedia

于 2010-04-21T13:57:27.400 に答える

text - ウィキペディア テキスト ダウンロード

7 に答える 7

Related

Reference

text - ウィキペディアテキストダウンロード