1

Lucene でのドイツ語のウムラウトの処理に関して 2 つの質問があります。

  1. 「ue」、「ae」などと書かれたドイツ語のウムラウト文字を、「u」、「a」などの折りたたみ形式に変換する方法を見つけようとしています。これは、GermanAnalyzer (およびそれによって使用される German2StemFilter) によって行われますが、残念ながら、私の場合は非常に望ましくないステミングも行います。'ue' -> 'u' 変換のみを実行できる他のフィルターはありますか?

  2. 'ü' -> 'ue' (ASCIIFoldingFilter のような 'u' ではない) 変換を行うフィルタはありますか? 私が達成しようとしているのは、ユーザーが「 über」または「ueber」を検索するたびに「über」という単語がインデックスに表示され、「uber」は検索されないことです。

4

2 に答える 2

2

MappingCharFilterFactoryを使用して、'ü' -> 'ue' のように、好きなことを選択できる独自のマッピング ファイルを提供できます。

于 2012-11-20T08:15:28.820 に答える