java - データベース入力ステージングと連携する Java 上のスコアリングフレームワーク/アプリケーション/サーバーによる重複排除

翻译自：https://stackoverflow.com/questions/9451978 2012-02-26T09:29:46.830

458 次

0

以下のことを行うJava製品を提案してください（私はオープンソースを好むでしょう）：

データ重複排除
重複排除スコアリング
重複排除ルールとスコアリングルールをカスタマイズできます。

例を見てください：

「INPUT_DB」という名前の入力ステージングデータベースがあります。
「INPUT_PERSONS」という名前のテーブルがあります
このテーブルにはいくつかのフィールドがあります。

ID (無意味な代理主キー)
FIRST_NAME
LAST_NAME
SECOND_NAME
BIRTH_DATE
PASSPORT_SERIES (PASSPORT_SERIES + PASSPORT_NUM は市民の一意の識別子)
PASSPORT_NUM

INPUT_PERSONS のすべてのレコードを調べて、重複と一致を見つける必要があります。いくつかのルールを作成する必要があります。

PASSPORT_SERIES+PASSPORT_NUM が何らかのレコードに等しい場合、これら 2 つのレコードが重複していることを意味します。このような状況のスコアは 100 点満点中 100 点です
FIRST_NAME と LAST_NAME が等しいが、PASSPORT_SERIES+PASSPORT_NUM に 1 つの異なる文字がある場合 (たとえば、ミスプリント)、これらのレコードは重複している可能性があり、それらのスコアは 100 点中 90 点です。
等々....

すぐに使えるソリューションを見つけて、それをベースとして使用することは可能ですか?

2 に答える 2

1

私は過去にこれを行い、felEgi-sunter アルゴリズムに基づいています。この質問を参照してください: Fellegi-Sunter のオープンソース実装はありますか?

于 2012-02-26T09:56:04.370 に答える