数字をダッシュで割った形式のトラブル チケットがあります。つまり、n-nnnnnnn です。
リンク http://lucidworks.lucidimagination.com/display/solr/Tokenizers (Standard Tokenizer および Classic Tokenizer のセクション内) は、Unicode 標準付属書 UAX#29 のサポート前とサポート後の両方を意味します。
単語に数字が含まれていない限り、単語はハイフンで分割されます。その場合、トークンは分割されず、数字とハイフンは保持されます。
私たちの Solr インストールは StandardTokenizerFactory のみを使用していますが、このトラブル チケット形式はダッシュでクエリに分割されています。私はsolr/luceneが初めてです。私は 3.6.1 のコードをダウンロードしましたが、コメントは反対のことを暗示しています (破線の数字がまだ数字と見なされない限り)。Lex の処理をたどることができませんでした:
- 生成されるトークンは次のタイプです。
- <ALPHANUM>: アルファベットと数字のシーケンス
- <NUM>: 数値
- <SOUTHEAST_ASIAN>: 南および南東の一連の文字
- タイ語、ラオス語、ミャンマー語、クメール語などのアジア言語
- <IDEOGRAPHIC>: 単一の CJKV 表意文字
- <HIRAGANA>: ひらがな1文字
誰でもこの感謝を明確にすることができます。