luceneを使用して全文索引付けと検索をテストする必要があります。このために、さまざまなタイプ(pdf、doc、txt、xml、json ...)の多数のファイル(約15 Gb)を探しています。
ウィキペディアのデータベースを試しましたが、xmlファイルは1つしかありません。
誰かが私にこのようなデータベースを見つける場所を提案できますか?
luceneを使用して全文索引付けと検索をテストする必要があります。このために、さまざまなタイプ(pdf、doc、txt、xml、json ...)の多数のファイル(約15 Gb)を探しています。
ウィキペディアのデータベースを試しましたが、xmlファイルは1つしかありません。
誰かが私にこのようなデータベースを見つける場所を提案できますか?
InnoDBで全文検索を使用してみることができます。http://dumps.wikimedia.org/を使用する方が良いでしょうが。