複数の言語のインデックスを作成する Solr 検索エンジンをセットアップしています。カスタム UpdateProcessorFactory を作成して、入力テキストのどのセクションがどの言語であるかを把握し、ドキュメントのそれらのセクションを言語固有のフィールドにコピーしました。たとえば、次のテキストを使用します。
「ハローワールド、ボンジュール・ル・モンド、ハロー・ウェルト」
「Hello World」を en-text フィールドに、「Bonjour le Monde」を fr-text フィールドに、「Hallo Welt」を de-text フィールドにコピーします。各フィールドには、単語をトークン化してステミングするための適切な言語アナライザーがあります。
最後に、ユーザーがすべての言語を検索する検索語を入力するための 1 つのボックスを用意したいと考えています。検索用語を翻訳する必要はありませんが、適切に語幹を変更する必要があります。これを達成するための最良の方法は何ですか?また、検索のパフォーマンスについても非常に懸念しています。