15

Lucene のロシア語サポートは非​​常に貧弱です。

RussianAnalyzer (lucene-contrib の一部) は非常に低品質です。

Snowball の RussianStemmer モジュールはさらに悪いです。明らかに、代わりに Unicode と KOI8-R の奇妙な組み合わせを使用する必要があると仮定して、Unicode 文字列内のロシア語のテキストを認識しません。

より良い解決策を知っていますか?

4

5 に答える 5

4

私の回答はおそらく遅すぎますが、記録として、AOT プロジェクトのアナライザーは Lucene に同梱されているものよりもはるかに優れていることがわかりました。

于 2010-08-11T14:40:03.953 に答える
4

http://code.google.com/p/russianmorphology/を使用しました

于 2012-01-19T14:06:15.603 に答える
2

他のすべてが失敗した場合は、Sphinxを使用してください

于 2008-09-15T18:46:55.313 に答える
2

プロジェクトhttp://code.google.com/p/russianmorphology/はhttps://github.com/AKuznetsov/russianmorphologyに移動しました。このプロジェクトの新しいホスティングを考慮してください。

于 2015-03-20T22:13:25.897 に答える
0

それがオープンソースの素晴らしさです。ソース コードがあるので、現在の実装がうまくいかない場合は、いつでも独自の実装を作成したり、既存の実装を拡張したりすることができます。良いスタートは「Lucene in Action」の本でしょう。

于 2008-11-11T10:06:35.347 に答える