重複の可能性:
R: 文字列間の類似性を測定する方法は?
私は大規模なデータセットに取り組んできました。潜在的な重複を見つける必要があります-次のような類似の名前:
NewYork, new york, New York, Naw York, Niy Work
したがって、次のルールがそのような潜在的な重複を検出するのに役立つと考えました。
任意の 3 つの一致する文字が一致する場合: 問題: 次に、潜在的な重複として次の文字を検出しますが、実際にはそうではありません。運命の晩婚率 保守的になったら、連続四文字が必要になるかもしれないし、短い言葉に問題があるかもしれない。
タイプミスの重複を見つけるスマートな方法はありますか?
次の小さな例を考えてみましょう:
myfruits <- c("Apple", "Apricot", "Avocado", "Banana", "Bilberry",
"Blackberry", "Blackcurrant", "Blueberry", "Currant",
"Cherry", "Cherimoya", "Clementine", "Aple", "Binana", "BlaCkbarry",
"pricot")
スペラーエラーですが、実際には上記のリストと重複しています:
"Apple" & "Aple",
"Banana" & "Binana",
"Blackberry" & "BlaCkbarry",
"Apricot" & "pricot"