solr - solr 3.6.1ワード境界を一気に分割する

翻译自：https://stackoverflow.com/questions/13499912 2012-11-21T18:39:28.603

1167 次

数字をダッシュで割った形式のトラブルチケットがあります。つまり、n-nnnnnnn です。

リンク http://lucidworks.lucidimagination.com/display/solr/Tokenizers (Standard Tokenizer および Classic Tokenizer のセクション内) は、Unicode 標準付属書 UAX#29 のサポート前とサポート後の両方を意味します。

単語に数字が含まれていない限り、単語はハイフンで分割されます。その場合、トークンは分割されず、数字とハイフンは保持されます。

私たちの Solr インストールは StandardTokenizerFactory のみを使用していますが、このトラブルチケット形式はダッシュでクエリに分割されています。私はsolr/luceneが初めてです。私は 3.6.1 のコードをダウンロードしましたが、コメントは反対のことを暗示しています (破線の数字がまだ数字と見なされない限り)。Lex の処理をたどることができませんでした:

生成されるトークンは次のタイプです。
- <ALPHANUM>: アルファベットと数字のシーケンス
- <NUM>: 数値
- <SOUTHEAST_ASIAN>: 南および南東の一連の文字
- タイ語、ラオス語、ミャンマー語、クメール語などのアジア言語
- <IDEOGRAPHIC>: 単一の CJKV 表意文字
- <HIRAGANA>: ひらがな1文字

誰でもこの感謝を明確にすることができます。

solr - solr 3.6.1ワード境界を一気に分割する

1 に答える 1

Related

Reference