互いに非常に類似しているが、必ずしも完全に重複しているわけではないデータ フレーム内の行を特定したいと考えています。各行のすべてのデータを最後に 1 つの文字列セルにマージし、部分一致関数を使用することを検討しました。一致として認定するために必要な類似性のレベルを設定/調整できると便利です (たとえば、別の行の文字の 75% に一致するすべての行を返します)。
これは簡単な作業例です。
df<-data.frame(name = c("Andrew", "Andrem", "Adam", "Pamdrew"), id = c(12334, 12344, 34345, 98974), score = c(90, 90, 83, 95))
このシナリオでは、行 2 が行 1 の複製として表示されるようにしますが、行 4 は表示されないようにします (あまりにも似ていません)。提案をありがとう。