17

重複の可能性:
フルテキストスタイルの検索をテストするためのデータセットを探しています

私は最近、データマイニングのプロジェクトに取り組んでいます。このプロジェクトでは、テスト用に100GBのプレーンテキストが必要です。私は一日中ネットを検索するのにうんざりしています。誰かがリンクを提供して私を助けてください、どこでそのようなテキストファイルをダウンロードできますか?

4

2 に答える 2

10

どのタイプのテキストを検索していますか? 会話、記事、本、またはすべての良い広がり?

Project Gutenberg は良いスタートになるかもしれません: http://www.gutenberg.org/

ウィキペディアでは、記事のアーカイブをダウンロードすることもできます: http://en.wikipedia.org/wiki/Wikipedia:Database_download

于 2012-02-07T07:32:08.750 に答える
4

http://dumps.wikimedia.org/を使用する必要があります

于 2012-02-07T07:40:39.540 に答える