0

以下のことを行うJava製品を提案してください(私はオープンソースを好むでしょう):

  1. データ重複排除
  2. 重複排除スコアリング
  3. 重複排除ルールとスコアリング ルールをカスタマイズできます。

例を見てください:

  1. 「INPUT_DB」という名前の入力ステージング データベースがあります。
  2. 「INPUT_PERSONS」という名前のテーブルがあります
  3. このテーブルにはいくつかのフィールドがあります。

    ID (無意味な代理主キー)
    FIRST_NAME
    LAST_NAME
    SECOND_NAME
    BIRTH_DATE
    PASSPORT_SERIES (PASSPORT_SERIES + PASSPORT_NUM は市民の一意の識別子)
    PASSPORT_NUM

INPUT_PERSONS のすべてのレコードを調べて、重複と一致を見つける必要があります。いくつかのルールを作成する必要があります。

  1. PASSPORT_SERIES+PASSPORT_NUM が何らかのレコードに等しい場合、これら 2 つのレコードが重複していることを意味します。このような状況のスコアは 100 点満点中 100 点です
  2. FIRST_NAME と LAST_NAME が等しいが、PASSPORT_SERIES+PASSPORT_NUM に 1 つの異なる文字がある場合 (たとえば、ミスプリント)、これらのレコードは重複している可能性があり、それらのスコアは 100 点中 90 点です。
  3. 等々....

すぐに使えるソリューションを見つけて、それをベースとして使用することは可能ですか?

4

2 に答える 2

1

私は過去にこれを行い、felEgi-sunter アルゴリズムに基づいています。この質問を参照してください: Fellegi-Sunter のオープン ソース実装はありますか?

于 2012-02-26T09:56:04.370 に答える