0

Twitter REST API からプルして、キーワードに関連付けられた Twitter ユーザー名のデータフレームを作成しようとしています。しかしsearchTwitter()、多くの検索用語 (例: #rstats) を使用するクエリは、例え のような大規模なサンプルであっても、n = 1000高度 (>90%) の重複ツイートを返します。

具体例は次のとおりです。

tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))

df.undup <- df[duplicated(tweets.df) == FALSE,]
dim(df.undup)

検索用語が比較的少ない場合、これはページネーションの制限が原因なのだろうか?

4

1 に答える 1

1

まず、コードの 3 行目はdf.undup <- tweets.df[duplicated(tweets.df) == FALSE,]?

上記のコードを実行すると、1000 未満のツイートしか得られないと思います (私は 604 を取得し、結果は dim(df.undup)です604 10)。つまり、問題は重複があることではなく、ツイート数が 1000 未満であることだと思います。

作成日を見ると、最も古いツイートは3月14日(1週間前)のものです。Twitter API では通常、7 ~ 9 日以上前のツイートへのアクセスは許可されません。ツイート数が少ないのはそのせいだと思います。

チェックするには、同じものdim(tweets.df)dim(undup.df)返すかどうかを確認します。

于 2013-03-21T13:27:12.607 に答える