HTML ベースの検索エンジンをテストしたいと考えており、改訂されたドキュメントの比較的大きなセットが必要です。ダウンロードして自分のシステムに入れることができるアーカイブはありますか? ウィキペディアのダンプについて読んだことがありますが、それらがどのようにフォーマットされているかわかりません。インターネット アーカイブの Wayback Machine は優れていますが、サーバーは低速です。次のアーカイブを探しています。
- 大きいが巨大ではない。それぞれ 1000 のリビジョンを持つ 1000 のドキュメントがあれば、私のプロジェクトは満足できます。5 テラバイトの DB を探しているわけではありません。
- 改訂されています。静的な単一のリビジョン アーカイブでは十分ではありません。
- HTML であるか、簡単に HTML に変換できるドキュメントを探しています。