名前の比較に関する限り、レーベンシュタイン距離アルゴリズムを調べてみるとよいでしょう。2 つの文字列を指定すると、重複を検出するための基礎として使用できる距離測定値が計算されます。
私は個人的に、多数の重複があるかなり大きなデータベースを持つアプリケーション用に開発したツールでそれを使用しました。これを私のドメインに関連する他のデータ比較と組み合わせて使用することで、ツールをアプリケーション データベースに向けることができ、重複したレコードの多くをすばやく見つけることができました。うそをつくつもりはありませんが、実際に見るのはかなりクールだと思いました。
実装も簡単です。C# バージョンは次のとおりです。
public int CalculateDistance(string s, string t) {
int n = s.Length; //length of s
int m = t.Length; //length of t
int[,] d = new int[n + 1, m + 1]; // matrix
int cost; // cost
// Step 1
if (n == 0) return m;
if (m == 0) return n;
// Step 2
for (int i = 0; i <= n; d[i, 0] = i++) ;
for (int j = 0; j <= m; d[0, j] = j++) ;
// Step 3
for (int i = 1; i <= n; i++) {
//Step 4
for (int j = 1; j <= m; j++) {
// Step 5
cost = (t.Substring(j - 1, 1) == s.Substring(i - 1, 1) ? 0 : 1);
// Step 6
d[i, j] = System.Math.Min(System.Math.Min(d[i - 1, j] + 1, d[i, j - 1] + 1), d[i - 1, j - 1] + cost);
}
}
// Step 7
return d[n, m];
}