私は約 700 000 行の data.frame に取り組んでいます。これには、statusupdates の ID と、対応する Twitter のユーザー名が含まれています。そこに何人のユーザーがいて、何回ツイートしたかを知りたいだけです。ですから、これはテーブルを使った非常に簡単な作業だと思いました。しかし、異なる結果が得られていることに気付きました。
最近、このように列を文字に変換しました
>freqs <- as.data.frame(table(as.character(w_dup$from_user))
>nrow(freqs)
[1] 239678
2ヶ月前、私はそのようにしました
>freqs <- as.data.frame(table(w_dup$from_user)
>nrow(freqs)
[1] 253594
このように、データ フレームに頻度 0 のユーザー名が含まれていることに気付きました。ユーザー名がデータセットに含まれている場合は、少なくとも 1 回出現する必要があります。
?テーブルは私を助けませんでした。小さなデータセットでこの問題を再現することもできませんでした。
私が間違っていること。または、テーブルの使用法を誤解していますか?