特殊文字を含むいくつかの単語をまとめて索引付けしたいと思います。
たとえば、 が与えられた場合、 andm&m
で区切るのではなく、全体としてインデックスを作成したいと思います(通常は区切り文字と見なされます)。m
m
&
標準のトークナイザー/フィルターを使用してこれを達成する方法はありますか、それとも自分で作成する必要がありますか?
特殊文字を含むいくつかの単語をまとめて索引付けしたいと思います。
たとえば、 が与えられた場合、 andm&m
で区切るのではなく、全体としてインデックスを作成したいと思います(通常は区切り文字と見なされます)。m
m
&
標準のトークナイザー/フィルターを使用してこれを達成する方法はありますか、それとも自分で作成する必要がありますか?
基本的に、テキスト フィールド タイプは、インデックスを作成する前に特殊文字を除外します。文字列型を使用できますが、検索にはお勧めできません。WordDelimiterFilterFactoryのtypes オプションを使用 でき、それらの特殊文字をアルファベット順に変換できます
% => パーセント & => そして
標準トークナイザー ファクトリは、指定されたテキストを特殊文字で分割/トークン化します。特殊文字でインデックスを作成するには、独自のカスタム トークナイザーを作成するか、次のようにします。
{" ",";"}
です。StandardTokenizer の代わりに、上記の文字リストでPatternTokenizerを使用します。構成は次のようになります。
<analyzer>
<tokenizer class="solr.PatternTokenizerFactory" pattern=" |;" />
</analyzer>
WhiteSpaceTokenizerFactory を使用できます。
http://docs.lucidworks.com/display/solr/Tokenizers#Tokenizers-WhiteSpaceTokenizer
空白でのみトークン化します。例えば、
「m&m」は単一のトークンと見なされるため、そのように索引付けされます