以下のことを行うJava製品を提案してください(私はオープンソースを好むでしょう):
- データ重複排除
- 重複排除スコアリング
- 重複排除ルールとスコアリング ルールをカスタマイズできます。
例を見てください:
- 「INPUT_DB」という名前の入力ステージング データベースがあります。
- 「INPUT_PERSONS」という名前のテーブルがあります
このテーブルにはいくつかのフィールドがあります。
ID (無意味な代理主キー)
FIRST_NAME
LAST_NAME
SECOND_NAME
BIRTH_DATE
PASSPORT_SERIES (PASSPORT_SERIES + PASSPORT_NUM は市民の一意の識別子)
PASSPORT_NUM
INPUT_PERSONS のすべてのレコードを調べて、重複と一致を見つける必要があります。いくつかのルールを作成する必要があります。
- PASSPORT_SERIES+PASSPORT_NUM が何らかのレコードに等しい場合、これら 2 つのレコードが重複していることを意味します。このような状況のスコアは 100 点満点中 100 点です
- FIRST_NAME と LAST_NAME が等しいが、PASSPORT_SERIES+PASSPORT_NUM に 1 つの異なる文字がある場合 (たとえば、ミスプリント)、これらのレコードは重複している可能性があり、それらのスコアは 100 点中 90 点です。
- 等々....
すぐに使えるソリューションを見つけて、それをベースとして使用することは可能ですか?