lucene - PatternTokenizerFactory とストップワード

Question

COLORS と呼ばれる solr/lucene のドキュメントフィールドには、次のような単語のグループがあります。

field1: 青/濃い赤/緑 field2: 青/黄/オレンジ [...]

すべての色と各色の数を取得するには、それに対してファセット検索を実行する必要があります。最初に PatternTokenizerFactory を試し、次にストップワードリストを試しました。

<analyzer>
        <tokenizer class="solr.PatternTokenizerFactory" pattern="/" />
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.TrimFilterFactory" />
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords"
        enablePositionIncrements="true"
        />
</analyzer>

残念ながら、ストップワードリストの縫い目は無視されます。ファセット検索結果にストップワードが表示されます。

This SO questionは同じ問題を説明しています。残念ながら、投稿されたソリューションは私にとってはうまくいきません.solr.StandardTokenizerFactoryを使用できないためです. つまり、「濃い赤」が「濃い」「赤」になるというのは間違っています。

パターントークナイザーを使用する方法はありますか?

どんな種類の助けもありがとう！

score 1 · Accepted Answer

参考までに: ファセット、パターントークナイザー、ストップワードは lucene / solr 4 で動作します :-)

lucene - PatternTokenizerFactory とストップワード

1 に答える 1

Related

Reference