DictionaryCompoundWordTokenFilterFactoryを使用しています。次の単語を含むオランダ語の Compound_words_dict_nl.txtがあります:
pen
slot
knop
この辞書を使用して、単語penslotとknoppenを分けています。
問題は、クノッペン語を複合語と見なしたくないということです。knop の複数形です。フィルターはそれを knop と pen に分割し、knop と pen を含む結果を返します。しかし、knoppen ワードはペン ワードを生成するべきではありません。ただのステミング バージョン - knop (アナライザーのステミング フィルターでカバーします)。
辞書からペンの単語を削除すると、単語スロットのみがトークンとして追加されますが、これはペンスロットの場合には必要ありません。
この種の問題に対する簡単な回避策はありますか? または、カスタム フィルターを作成する必要がありますか?