Lucene のロシア語サポートは非常に貧弱です。
RussianAnalyzer (lucene-contrib の一部) は非常に低品質です。
Snowball の RussianStemmer モジュールはさらに悪いです。明らかに、代わりに Unicode と KOI8-R の奇妙な組み合わせを使用する必要があると仮定して、Unicode 文字列内のロシア語のテキストを認識しません。
より良い解決策を知っていますか?
Lucene のロシア語サポートは非常に貧弱です。
RussianAnalyzer (lucene-contrib の一部) は非常に低品質です。
Snowball の RussianStemmer モジュールはさらに悪いです。明らかに、代わりに Unicode と KOI8-R の奇妙な組み合わせを使用する必要があると仮定して、Unicode 文字列内のロシア語のテキストを認識しません。
より良い解決策を知っていますか?
私の回答はおそらく遅すぎますが、記録として、AOT プロジェクトのアナライザーは Lucene に同梱されているものよりもはるかに優れていることがわかりました。
他のすべてが失敗した場合は、Sphinxを使用してください
プロジェクトhttp://code.google.com/p/russianmorphology/はhttps://github.com/AKuznetsov/russianmorphologyに移動しました。このプロジェクトの新しいホスティングを考慮してください。
それがオープンソースの素晴らしさです。ソース コードがあるので、現在の実装がうまくいかない場合は、いつでも独自の実装を作成したり、既存の実装を拡張したりすることができます。良いスタートは「Lucene in Action」の本でしょう。