私は人々のデータベースの重複排除に取り組んでいます。最初のパスとして、文献に記載されているように、データベース全体で O(n^2) 操作を回避するために、基本的な 2 段階のプロセスに従っています。まず、データセット全体を「ブロック」し、名前に含まれる n グラムとイニシャルに基づいて各レコードをビンに入れます。次に、Jaro-Winkler を使用してビンごとのすべてのレコードを比較し、それらが同一人物である可能性を測定します。
私の問題-名前はUnicodeです。これらの名前の一部 (多くはありませんが) は CJK (中国語-日本語-韓国語) 言語です。これらの言語でイニシャルなどの単語の境界を見つける方法がわかりません。名前が 2 文字になる可能性がある言語の名前に対して n-gram 分析が有効かどうかはわかりません。また、このコンテキストで文字列編集距離または他の類似性メトリックが有効かどうかもわかりません。
言語学者のプログラマーやネイティブ スピーカーからのアイデアはありますか?