私はレコード リンケージ プロジェクトに取り組んでおり、さまざまな文字列コンパレータについて調査作業を行う必要があります。私が見ているものは次のとおりです。
ジャロ・ウィンクラー、レーベンシュタイン距離、最長共通部分文字列、完全一致。
私は疑問に思っていますが、どれがいつ使用するのに適しているかを判断するために何か作業が行われましたか? つまり、Jaro-Winkler は名前には適しているように見えますが、社会保障番号を完全に一致させる方がよい場合があります。アドレスにはどれを使用しますか? Jaro-Winkler には他の製品より優れている点はありますか?
誰かが私に指摘できるホワイトペーパーはありますか?
ありがとう。