テキスト ドキュメント用のストレージを構築する必要があるとします。ストレージには、ドキュメント (テキスト ファイルのみ) とそのメタデータ (作成日と各ドキュメントの数十個のタグ) が含まれている必要があります。保存するドキュメントの数は ~10^6 (各ドキュメントは ~10K) です。
主要言語はJava
であり、ストレージは でデプロイする必要がありますWindows
。
ユーザーは、ドキュメントとそのメタデータをストレージに保存し、日付範囲とタグでドキュメントを検索できる必要があります。たとえば、タグtag1とtag2を使用して先週のすべてのドキュメントを取得します。
ドキュメントをファイル システムに保存し、インデックスを追加してドキュメント名 (パス)、日付、およびタグを保存するとします。どのようにインデックスを作成しますか? そのためにRDBMS(例mySQL
)を使用しますか?Lucene
またはその他の全文検索エンジンを使用しますか?