r - Rで「重複に近い」文字列を見つける

Question

R を使用して感情分析ツールを構築していますが、重複に問題があります。主なデータソースは Twitter であり、各ツイートの末尾にランダムなテキストを追加することで、多くのユーザーが Twitter 独自のスパムフィルターをバイパスしているようです。例えば

Click xxxxx to buy the amazing xxxxx for FREE ugjh

最後に別のランダムな文字列が付いた、それらの正確なツイートがたくさんあります。それらは同じユーザーからのものか、別のユーザーからのものです。

duplicatedまたは 2 つの文字列がどれだけ近いかuniqueを返し、それらが特定の % を超えている場合はそれらを却下するような関数はありますか?

そうすることで、まったく同じことを言っている人々からの実際のツイートが最終的に削除されることを私は知っています。

I love xxxx !

しかし、私は将来それを扱います。

正しい方向へのヒントは大歓迎です！

score 6 · Accepted Answer

私はagrep上で述べました。これがあなたが説明したことの例です。変化させることで、max.distanceキックされるものを調整できます。

comp <- "Click xxxxx to buy the amazing xxxxx for FREE ugjh"
w <- "I love xxxx !"
x <- "Click xxxxx to purchase the awesome xxxxx for FREE bmf"

agrep(comp, c(x, w), max.distance =.4, value = TRUE)
agrep(comp, c(x, w), max.distance =.9, value = TRUE)

r - Rで「重複に近い」文字列を見つける

1 に答える 1

Related

Reference