4

私はZendLuceneを使用してスウェーデン語のテキストにインデックスを付けています。問題は、luceneがスウェーデン語のcharsåäöで単語をトークン化することです。たとえば、「världens」という単語は、インデックス内で「v」と「ldens」の2つの単語になります。

zend luceneが受け入れ、トークン化しない文字を追加する方法はありますか?

4

2 に答える 2

5

トークン化には、デフォルトのテキストアナラ​​イザーの代わりにUTF-8互換のテキストアナラ​​イザーを使用します。これには、PHPのPCRE(Perl互換正規表現)ライブラリをUTF-8サポートでコンパイルする必要があることに注意してください(PHPにバンドルされているPCREライブラリを使用する場合はデフォルトですが、共有ライブラリを使用する場合は有効にならない可能性があります)。大文字と小文字を区別しないバージョンのUTF-8互換アナライザーの場合は、mbstring拡張機能も有効にする必要があります。

于 2009-12-30T14:36:27.727 に答える
2

アナライザーの使用。utf8を使用しテキスト分析に関するドキュメントと、独自のアナライザーの作成に関するドキュメントを参照してください。UTF-8アナライザーを使用することをお勧めします。

于 2009-12-30T14:35:30.393 に答える