r - R の twitteR パッケージの searchTwitter() (2.15.2) - 多数の重複ツイート

Question

Twitter REST API からプルして、キーワードに関連付けられた Twitter ユーザー名のデータフレームを作成しようとしています。しかしsearchTwitter()、多くの検索用語 (例: #rstats) を使用するクエリは、例えのような大規模なサンプルであっても、n = 1000高度 (>90%) の重複ツイートを返します。

具体例は次のとおりです。

tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))

df.undup <- df[duplicated(tweets.df) == FALSE,]
dim(df.undup)

検索用語が比較的少ない場合、これはページネーションの制限が原因なのだろうか?

score 1 · Accepted Answer

まず、コードの 3 行目はdf.undup <- tweets.df[duplicated(tweets.df) == FALSE,]?

上記のコードを実行すると、1000 未満のツイートしか得られないと思います (私は 604 を取得し、結果は dim(df.undup)です604 10)。つまり、問題は重複があることではなく、ツイート数が 1000 未満であることだと思います。

作成日を見ると、最も古いツイートは3月14日(1週間前)のものです。Twitter API では通常、7 ～ 9 日以上前のツイートへのアクセスは許可されません。ツイート数が少ないのはそのせいだと思います。

チェックするには、同じものdim(tweets.df)をdim(undup.df)返すかどうかを確認します。

r - R の twitteR パッケージの searchTwitter() (2.15.2) - 多数の重複ツイート

1 に答える 1

Related

Reference