lucene - Lucene および/または JFlex の文字変換規則

Question

私は Lucene を初めて使用するので、ドキュメント全体を読む時間がありません。一致を強調するために Lucene 蛍光ペンを使用しています。私が知る限り、Lucene 自体は JFlex エンジンを使用しています。現在のタスクには、新しい言語サポートの導入が必要です。要件によると、ειναι のような単語は είναι と一致する必要があり、その逆も同様です。メッセージを入力するとき、人々は通常、アクセントの使用を避けるため、アクセントのある単語はアクセントのない同じ単語と一致する必要があります。それで、私の質問は、Lucene または JFlex のどこかで U+038A->U+03B9 のような文字変換ルールを指定できるかどうかです?? どんな助けでも大歓迎です。

score 0 · Accepted Answer

キャラクターの変換についてはわかりません...しかし、いくつかのことができます：

ISOLatin1AccentFilter を (アナライザーで) 適用して、アクセント付きの単語がアクセントなしの検索で一致として扱われるようにします。 http://www.dotlucene.net/documentation/api/Lucene.Net.Analysis.ISOLatin1AccentFilter.html
Lucene Fuzzy Search http://lucene.apache.org/core/old_versioned_docs/versions/2_9_1/queryparsersyntax.html#Fuzzy Searchesを使用します。

私が使用したものからすると、単純な構成設定ではありません。Solrにはそのようなものがあるかもしれません。Lucene は裸のライブラリであり、通常、検索、アナライザー/フィルター、またはインデックス設計自体のどこに "ビジネスロジックがある" かを決定する柔軟性を提供します。

lucene - Lucene および/または JFlex の文字変換規則

1 に答える 1

Related

Reference