1

重複の可能性:
R: 文字列間の類似性を測定する方法は?

私は大規模なデータセットに取り組んできました。潜在的な重複を見つける必要があります-次のような類似の名前:

NewYork, new york, New York, Naw York, Niy Work 

したがって、次のルールがそのような潜在的な重複を検出するのに役立つと考えました。

任意の 3 つの一致する文字が一致する場合: 問題: 次に、潜在的な重複として次の文字を検出しますが、実際にはそうではありません。運命の晩婚率 保守的になったら、連続四文字が必要になるかもしれないし、短い言葉に問題があるかもしれない。

タイプミスの重複を見つけるスマートな方法はありますか?

次の小さな例を考えてみましょう:

myfruits <- c("Apple", "Apricot", "Avocado", "Banana", "Bilberry", 
"Blackberry", "Blackcurrant",    "Blueberry", "Currant", 
"Cherry", "Cherimoya", "Clementine", "Aple", "Binana", "BlaCkbarry",
"pricot")

スペラーエラーですが、実際には上記のリストと重複しています:

 "Apple" & "Aple",
"Banana" &  "Binana", 
"Blackberry" & "BlaCkbarry", 
"Apricot" &  "pricot"
4

0 に答える 0