Solr スキーマ (Solr 1.3.0 を使用) を取得して、空白と句読点でトークン化された用語を作成しようとしています。以下に、私が望んでいることの例をいくつか示します。
terms given -> terms tokenized
foo-bar -> foo,bar
one2three4 -> one2three4
multiple words/and some-punctuation -> multiple,words,and,some,punctuation
この組み合わせがうまくいくと思いました:
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"/>
</analyzer
<fieldType>
問題は、これにより文字から数字への遷移が次のようになることです。
one2three4 -> one,2,three,4
さまざまな設定の組み合わせを試しWordDelimiterFilterFactory
ましたが、有用であると証明されたものはありません。必要なものを処理できるフィルターまたはトークナイザーはありますか?