2

Solr スキーマ (Solr 1.3.0 を使用) を取得して、空白と句読点でトークン化された用語を作成しようとしています。以下に、私が望んでいることの例をいくつか示します。

terms given -> terms tokenized

foo-bar -> foo,bar
one2three4 -> one2three4
multiple words/and some-punctuation -> multiple,words,and,some,punctuation

この組み合わせがうまくいくと思いました:

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"/>
  </analyzer
<fieldType>

問題は、これにより文字から数字への遷移が次のようになることです。

one2three4 -> one,2,three,4

さまざまな設定の組み合わせを試しWordDelimiterFilterFactoryましたが、有用であると証明されたものはありません。必要なものを処理できるフィルターまたはトークナイザーはありますか?

4

1 に答える 1

2

どうですか

<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" splitOnNumerics="0" />

one2three4 が分割されるのを防ぐ必要があります

于 2010-10-08T13:39:31.297 に答える