lucene - Lucene / ElasticSearch 用のまともな多言語ステマーまたはアナライザー?

Question

さまざまな言語の可能性のあるテキストのステミング/分析を適切に行う汎用アナライザーがあるかどうかに興味があります。特定のタスクでは、適切な多言語検索 (たとえば、フィールドnameをname.english、name.frenchなどに分割) を行うのはやり過ぎのように思えます。

接尾辞 (例: "dogs" --> "dog") を削除し、英語以外でも機能するアナライザーはありますか? 言語検出などを行うかどうかはあまり気にしません。たとえば、ロマンティック言語やゲルマン言語で作業するだけで十分でしょう。それとも、言語固有のアナライザーと言語固有のクエリを使用するだけの価値があるほど、品質の低下は深刻ですか?

score 3 · Accepted Answer

あなたの最善の策は、icu アナライザーを使用することです。これらは正規化には役立ちますが、本質的に言語固有のステミングなどにはあまり役立ちません。

さらに、別の言語フィールドを使用し、そのフィールドの値に基づいて異なるアナライザーを使用することもできます。したがって、両方のアプローチを組み合わせて、icu トークナイザーにフォールバックし、専門のアナライザーで関心のある言語をサポートすることができます: http://www.elasticsearch.org/guide/reference/mapping/analyzer-field/

多言語サポートに関する最近の Berlin Buzzwords カンファレンスの次のプレゼンテーションをご覧になることをお勧めします: http://www.youtube.com/watch?v=QI0XEshXygo . そこにはたくさんの良いものがあります。さまざまなアナライザーの使用例については、27 分目にジャンプしてください。

lucene - Lucene / ElasticSearch 用のまともな多言語ステマーまたはアナライザー?

1 に答える 1

Related

Reference