Twitter REST API からプルして、キーワードに関連付けられた Twitter ユーザー名のデータフレームを作成しようとしています。しかしsearchTwitter()
、多くの検索用語 (例: #rstats
) を使用するクエリは、例え のような大規模なサンプルであっても、n = 1000
高度 (>90%) の重複ツイートを返します。
具体例は次のとおりです。
tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))
df.undup <- df[duplicated(tweets.df) == FALSE,]
dim(df.undup)
検索用語が比較的少ない場合、これはページネーションの制限が原因なのだろうか?