0

フィールド アナライザーの定義に次のフィルターを含む Solr-5.5.1 があります。

    <filter class="solr.MorfologikFilterFactory" />
    <filter class="solr.ASCIIFoldingFilterFactory"/>

通常はうまく機能しますが、一部の単語には問題があります。たとえば、Poznań. これは都市名ですが、ステマーはそれを基本形のポーランド語名詞として認識し、それpoznanieが索引付けされます。これで、ASCII 折りたたみは、 を検索するときにpoznan、 を含むドキュメントpoznańが一致することを確認する必要があります。しかし、poznanはステマーによって として認識されないpoznanieため、一致しません。

これを解決する方法はありますか?

回避策の私の考えは、ステマーが常に元のトークンを保持するようにするpoznańこと[poznań, poznanie]です[poznanie]。これを達成する簡単な方法はありますか?デフォルトでこのように機能しない理由はありますか?solr.MorfologikFilterFactoryの javadoc でそれについて何も見つかりませんでした。

4

1 に答える 1

0

私の回避策のアイデアには簡単な実装があります。ステマーが各トークンを ascii で折りたたまれた形式で受け取るようにします。これは、追加の ASCIIFoldingFilterFactory で実行できます。

    <filter class="solr.ASCIIFoldingFilterFactory" preserveOriginal="true"/>
    <filter class="solr.MorfologikFilterFactory" />
    <filter class="solr.ASCIIFoldingFilterFactory"/>
于 2016-11-25T09:35:03.260 に答える