頑張っていても自分に答えられないことに疑問を持っています。
理解の問題だと思います。
そう...
長いテキスト フィールド (製品説明) のインデックスを作成しようとしていますが、単語が重複している可能性があります。フレーバーについて話しているとしましょう。チョコレートと言い、次に話し続け、再びチョコレートとします。
solrがインデックスを作成している場合(solrコントロールパネルの分析タブを理解している限り)、用語(「ポインター」であり、各用語->「アイテム」を識別するuniqueKey属性に関連付けられている)を作成します私たちが持っている各トークン。
solr インデックスには、同じアイテムを指す 2 つの用語がありますか?
これは私のテキストアナライザーです:
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.GermanNormalizationFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_de.txt" enablePositionIncrements="true" />
<filter class="solr.EnglishPossessiveFilterFactory"/>
<filter class="solr.EnglishMinimalStemFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_en.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
重複するエントリを削除しますが、分析を確認すると、次のことがわかりました。
私がsolrを理解している限り、最後に、私のインデックスには、その「アイテム」を指すこの3つの用語があります。チョコレート、ブラブラブラ、チョコレートです。そうですか?
質問が明確であることを願っています:)
ありがとう !