私はZendLuceneを使用してスウェーデン語のテキストにインデックスを付けています。問題は、luceneがスウェーデン語のcharsåäöで単語をトークン化することです。たとえば、「världens」という単語は、インデックス内で「v」と「ldens」の2つの単語になります。
zend luceneが受け入れ、トークン化しない文字を追加する方法はありますか?
私はZendLuceneを使用してスウェーデン語のテキストにインデックスを付けています。問題は、luceneがスウェーデン語のcharsåäöで単語をトークン化することです。たとえば、「världens」という単語は、インデックス内で「v」と「ldens」の2つの単語になります。
zend luceneが受け入れ、トークン化しない文字を追加する方法はありますか?
トークン化には、デフォルトのテキストアナライザーの代わりにUTF-8互換のテキストアナライザーを使用します。これには、PHPのPCRE(Perl互換正規表現)ライブラリをUTF-8サポートでコンパイルする必要があることに注意してください(PHPにバンドルされているPCREライブラリを使用する場合はデフォルトですが、共有ライブラリを使用する場合は有効にならない可能性があります)。大文字と小文字を区別しないバージョンのUTF-8互換アナライザーの場合は、mbstring拡張機能も有効にする必要があります。
アナライザーの使用。utf8を使用したテキスト分析に関するドキュメントと、独自のアナライザーの作成に関するドキュメントを参照してください。UTF-8アナライザーを使用することをお勧めします。