インデックスを作成して検索する必要があるドキュメント、電子メール メッセージなどをいくつか (100 万以上) 持っています。各ドキュメントには異なるエンコーディングが含まれている可能性があります。
これを適切に行うには、どの製品 (または製品の構成) を学び、理解する必要がありますか?
私の最初の推測は Lucene ベースのものですが、これは私が学んでいる最中のものです。私の主な望みは、検索フロント エンドを同時に構築できるように、時間のかかるエンコード プロセスをできるだけ早く開始することです。これには、2 バイト文字の何らかの正規化が必要になる場合があります。
どんな助けでも大歓迎です。