0

COLORS と呼ばれる solr/lucene のドキュメント フィールドには、次のような単語のグループがあります。

field1: 青/濃い赤/緑 field2: 青/黄/オレンジ [...]

すべての色と各色の数を取得するには、それに対してファセット検索を実行する必要があります。最初に PatternTokenizerFactory を試し、次にストップワード リストを試しました。

<analyzer>
        <tokenizer class="solr.PatternTokenizerFactory" pattern="/" />
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.TrimFilterFactory" />
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords"
        enablePositionIncrements="true"
        />
</analyzer>

残念ながら、ストップワード リストの縫い目は無視されます。ファセット検索結果にストップワードが表示されます。

This SO questionは同じ問題を説明しています。残念ながら、投稿されたソリューションは私にとってはうまくいきません.solr.StandardTokenizerFactoryを使用できないためです. つまり、「濃い赤」が「濃い」「赤」になるというのは間違っています。

パターントークナイザーを使用する方法はありますか?

どんな種類の助けもありがとう!

4

1 に答える 1

1

参考までに: ファセット、パターン トークナイザー、ストップワードは lucene / solr 4 で動作します :-)

于 2011-07-18T09:27:03.147 に答える