COLORS と呼ばれる solr/lucene のドキュメント フィールドには、次のような単語のグループがあります。
field1: 青/濃い赤/緑 field2: 青/黄/オレンジ [...]
すべての色と各色の数を取得するには、それに対してファセット検索を実行する必要があります。最初に PatternTokenizerFactory を試し、次にストップワード リストを試しました。
<analyzer>
<tokenizer class="solr.PatternTokenizerFactory" pattern="/" />
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.TrimFilterFactory" />
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords"
enablePositionIncrements="true"
/>
</analyzer>
残念ながら、ストップワード リストの縫い目は無視されます。ファセット検索結果にストップワードが表示されます。
This SO questionは同じ問題を説明しています。残念ながら、投稿されたソリューションは私にとってはうまくいきません.solr.StandardTokenizerFactoryを使用できないためです. つまり、「濃い赤」が「濃い」「赤」になるというのは間違っています。
パターントークナイザーを使用する方法はありますか?
どんな種類の助けもありがとう!