フィールド アナライザーの定義に次のフィルターを含む Solr-5.5.1 があります。
<filter class="solr.MorfologikFilterFactory" />
<filter class="solr.ASCIIFoldingFilterFactory"/>
通常はうまく機能しますが、一部の単語には問題があります。たとえば、Poznań
. これは都市名ですが、ステマーはそれを基本形のポーランド語名詞として認識し、それpoznanie
が索引付けされます。これで、ASCII 折りたたみは、 を検索するときにpoznan
、 を含むドキュメントpoznań
が一致することを確認する必要があります。しかし、poznan
はステマーによって として認識されないpoznanie
ため、一致しません。
これを解決する方法はありますか?
回避策の私の考えは、ステマーが常に元のトークンを保持するようにするpoznań
こと[poznań, poznanie]
です[poznanie]
。これを達成する簡単な方法はありますか?デフォルトでこのように機能しない理由はありますか?solr.MorfologikFilterFactoryの javadoc でそれについて何も見つかりませんでした。