4

数字をダッシュ​​で割った形式のトラブル チケットがあります。つまり、n-nnnnnnn です。

リンク http://lucidworks.lucidimagination.com/display/solr/Tokenizers (Standard Tokenizer および Classic Tokenizer のセクション内) は、Unicode 標準付属書 UAX#29 のサポート前とサポート後の両方を意味します。

単語に数字が含まれていない限り、単語はハイフンで分割されます。その場合、トークンは分割されず、数字とハイフンは保持されます。

私たちの Solr インストールは StandardTokenizerFactory のみを使用していますが、このトラブル チケット形式はダッシュでクエリに分割されています。私はsolr/luceneが初めてです。私は 3.6.1 のコードをダウンロードしましたが、コメントは反対のことを暗示しています (破線の数字がまだ数字と見なされない限り)。Lex の処理を​​たどることができませんでした:

  • 生成されるトークンは次のタイプです。
    • <ALPHANUM>: アルファベットと数字のシーケンス
    • <NUM>: 数値
    • <SOUTHEAST_ASIAN>: 南および南東の一連の文字
    • タイ語、ラオス語、ミャンマー語、クメール語などのアジア言語
    • <IDEOGRAPHIC>: 単一の CJKV 表意文字
    • <HIRAGANA>: ひらがな1文字

誰でもこの感謝を明確にすることができます。

4

1 に答える 1