R を使用して感情分析ツールを構築していますが、重複に問題があります。主なデータ ソースは Twitter であり、各ツイートの末尾にランダムなテキストを追加することで、多くのユーザーが Twitter 独自のスパム フィルターをバイパスしているようです。例えば
Click xxxxx to buy the amazing xxxxx for FREE ugjh
最後に別のランダムな文字列が付いた、それらの正確なツイートがたくさんあります。それらは同じユーザーからのものか、別のユーザーからのものです。
duplicated
または 2 つの文字列がどれだけ近いかunique
を返し、それらが特定の % を超えている場合はそれらを却下するような関数はありますか?
そうすることで、まったく同じことを言っている人々からの実際のツイートが最終的に削除されることを私は知っています。
I love xxxx !
しかし、私は将来それを扱います。
正しい方向へのヒントは大歓迎です!