solr - Solrで特殊文字を含む単語にインデックスを付ける方法

Question

特殊文字を含むいくつかの単語をまとめて索引付けしたいと思います。

たとえば、が与えられた場合、 andm&mで区切るのではなく、全体としてインデックスを作成したいと思います(通常は区切り文字と見なされます)。mm&

標準のトークナイザー/フィルターを使用してこれを達成する方法はありますか、それとも自分で作成する必要がありますか?

score 3 · Accepted Answer

基本的に、テキストフィールドタイプは、インデックスを作成する前に特殊文字を除外します。文字列型を使用できますが、検索にはお勧めできません。WordDelimiterFilterFactoryのtypes オプションを使用でき、それらの特殊文字をアルファベット順に変換できます

% => パーセント & => そして

score 3 · Accepted Answer

標準トークナイザーファクトリは、指定されたテキストを特殊文字で分割/トークン化します。特殊文字でインデックスを作成するには、独自のカスタムトークナイザーを作成するか、次のようにします。

score 1 · Accepted Answer

WhiteSpaceTokenizerFactory を使用できます。

空白でのみトークン化します。例えば、

「m&m」は単一のトークンと見なされるため、そのように索引付けされます

3 に答える 3