100Gb以上のテキスト ドキュメントを操作するアプリケーションを作成しています。各ドキュメントのサイズは 2Kb ~ 100Kb です。
最初は、MySQL や Firebird などのDBMS を使用して、生のドキュメントを保存し、インデックスを lucene のインデックスに保存することを想定していました。このアプローチにはいくつかの欠点があります。たとえば、データベース トランザクションは lucene インデックスについて何も認識せず、その逆も同様です。したがって、それらを同期する必要があります。
次に、Lucene がドキュメント全体を index に格納できるものを想定しました。したがって、インデックスのバックアップを定期的に作成する必要があります。しかし、とても簡単です。カタログ全体をインデックス付きでコピーできます。ある種の No SQL ストレージ (Lucene など) を使用しています。また、DBMS を使用しない場合もあります。
元のドキュメントをインデックスに保存するかどうかのベストプラクティスは何ですか? 私は本当にそのような目的で DBMS を使用したくありません。出来ますか?