既存の質問の投稿をすべて調べていましたが、関連性の高いものを取得できませんでした。
個人の名、姓、住所 1、住所 2、国コード、生年月日の何百万ものレコードを含むファイルがあります。上記のファイルを使用して顧客のリストを毎日チェックしたいと思います (顧客リストも毎日更新され、ファイルも毎日更新されます)。
名と姓についてはあいまい一致 (lucene fuzzyquery/levenshtein 距離 90% 一致の可能性があります) を希望し、残りのフィールドの国と生年月日については完全一致が必要でした。
私はLuceneを初めて使用しますが、投稿の数を見ると、可能のようです。
私の質問は次のとおりです。
- 入力ファイルのインデックスはどのように作成すればよいですか? FN、LN、国、DOB の組み合わせでインデックスを作成し、そのインデックスを検索に使用する必要があります
- ここでLuceneのファジークエリを使用するにはどうすればよいですか?
同じことを実装できる他の方法はありますか?