さまざまな言語の可能性のあるテキストのステミング/分析を適切に行う汎用アナライザーがあるかどうかに興味があります。特定のタスクでは、適切な多言語検索 (たとえば、フィールドname
をname.english
、name.french
などに分割) を行うのはやり過ぎのように思えます。
接尾辞 (例: "dogs" --> "dog") を削除し、英語以外でも機能するアナライザーはありますか? 言語検出などを行うかどうかはあまり気にしません。たとえば、ロマンティック言語やゲルマン言語で作業するだけで十分でしょう。それとも、言語固有のアナライザーと言語固有のクエリを使用するだけの価値があるほど、品質の低下は深刻ですか?