いくつかのドキュメント(ニュース)のインデックスを作成するために、solrでluceneを使用しています。これらのドキュメントにも見出しがあります。次に、HEADLINEフィールドをファセット検索して、カウントが最も高い用語を見つけようとします。これはすべて、ストップワードリストを含めて問題なく機能します。HEADLINEフィールドは複数の値のフィールドです。私はsolr.StandardTokenizerFactory
これらのフィールドを単一の用語に分割するためにを使用します(これはベストプラクティスではありませんが、それが唯一の方法であり、機能します)。
9/11
時々、トークナイザーは、 (9と11に分割される)のように分割されるべきではない用語を分割します。そこで、「protword」リストを使用することにしました。「9/11」はこのプロトワードリストの一部です。しかし、変化はありません。
これが私のschema.xmlの一部です
<fieldType name="facet_headline" class="solr.TextField" omitNorms="true">
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory" protected="protwords.txt"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.TrimFilterFactory" />
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
protected="protwords.txt"
/>
</analyzer>
</fieldType>
ファセットの結果を見ると、「9/11」を「9」または「11」にグループ化(ファセット)したものの、「9/11」を扱っていないドキュメントがたくさんあります。
なぜこれが機能しないのですか?
ありがとうございました。