特に医療業界ではありませんが、データの照合と検証に携わってきたので、試してみます。あなたは特定の国を指定しておらず、アジアに言及しただけなので、ルールに精通しており、同じことが多くのアジア諸国に当てはまると信じているという理由だけで、私の母国であるオーストラリアの例を使用します。
ヘルスケアに使用される独自のメディケア番号がありますが、必須ではありません。また、無料または割引されたケアは、99% 以上の人々が信頼できない番号を持っていることを意味します.
タックス ファイル ナンバーもあります。同様に、あなたが働いていても必須ではありません。
居住者ではない外国人と取引している可能性があります。
もちろん、運転免許証は健康診断を受けるのに必須ではありません。
「固定アドレスがない」ことは完全に合法です。さらに、一部の人々は、治療を受けるために嘘をついたり、薬物などを繰り返したりします。言うまでもなく、多くの人は頻繁に移動します。
結婚/離婚の場合に名前を変更することは一般的であり、違法な目的で行われない限り、元の名前が気に入らないという理由だけで名前を変更することができます. 言うまでもなく、人々はジムとジェームズのように、さまざまなことに共通の代用を使用しています。
大規模なデータセットでは、入力ミスが非常に一般的です。
要するに、あなたが求めている「完璧な」スキームは不可能だと思います。できる最善の方法は、重複の可能性があるものを見つけるために重み付けルールを適用することです。たとえば、同じ名前 / 生年月日 / 出生地はありそうもないことですが、可能性はあるので、データ入力オペレーターに重複の可能性があるという警告を表示し、重複の可能性がある詳細を確認してもらいます。一意であるべき運転免許証番号のようなものでさえ、新しい重複ではなく、元のエントリにデータ入力エラーがあったことを示している可能性があります。
私の経験からすると、チェーンの上層部の誰かがレビューする必要がある可能性のある重複をリストし、重複をマージするための簡単なオプションを提供するレポートが最善です。次に、人間がそれらをレビューするときに無視できるいくつかの誤検知をスローする、よりあいまいな正規表現の使用を開始できます。最適な一致結果を得るために、時間の経過とともにモデルを調整することもできます。