0

テキスト ドキュメント用のストレージを構築する必要があるとします。ストレージには、ドキュメント (テキスト ファイルのみ) とそのメタデータ (作成日と各ドキュメントの数十個のタグ) が含まれている必要があります。保存するドキュメントの数は ~10^6 (各ドキュメントは ~10K) です。

主要言語はJavaであり、ストレージは でデプロイする必要がありますWindows

ユーザーは、ドキュメントとそのメタデータをストレージに保存し、日付範囲とタグでドキュメントを検索できる必要があります。たとえば、タグtag1tag2を使用して先週のすべてのドキュメントを取得します。

ドキュメントをファイル システムに保存し、インデックスを追加してドキュメント名 (パス)、日付、およびタグを保存するとします。どのようにインデックスを作成しますか? そのためにRDBMS(例mySQL)を使用しますか?Luceneまたはその他の全文検索エンジンを使用しますか?

4

1 に答える 1

2

JSR-170 準拠の Java ドキュメント ストアであるJackRabbitを使用してみませんか?

Apache Jackrabbit™ コンテンツ リポジトリは、Java Technology API (JCR、JSR 170 および 283 で指定) のコンテンツ リポジトリに完全に準拠した実装です。

コンテンツ リポジトリは、構造化コンテンツと非構造化コンテンツ、全文検索、バージョン管理、トランザクション、観察などをサポートする階層型コンテンツ ストアです。

カバーの下でLuceneを使用していることに注意してください(あなたの質問について)。

于 2013-08-14T13:25:12.560 に答える