undup または dedup マッチを行うために Lucene を使用しようとしています。基本的に、特定のフィールド (あいまい検索) に基づいてグループ化したいレコードを含むファイルがあり、そのファイル内のどのレコードが互いに一致したかを示す一致キーを使用して結果を返します。
これは可能ですか?
ドキュメントの前処理中に、これらのフィールドを集約するハッシュを生成し、これを (as としてNOT_ANALYZED
) 保存できます。この方法では、サイズがわかっている 1 つのフィールドで検索するだけです。 MessageDigestを見てください。これは、ファイル コンテンツの重複検出のために通常行っていることです (コンテンツが 1 つのクエリに対して大きすぎる可能性があるため)。
探しているものがより複雑なクエリを作成することである場合は、CachingWrapperFilterを使用してみてください。これにより、重複排除アルゴリズムへの後続の呼び出しがはるかに高速になります。
This can be done (if I understand this correctly). You would index your terms that/records will be searched on in one pass. In the second pass, you will search for each term and log results.