1

searchTwitter の出力から重複を削除すると問題なく動作します。問題は、n=1000 または n=3000 に関係なく、searchTwitter() 関数が提供する元のツイートの量が常に 100 であることです。

これは私が使用したコードです:

tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))

df.undup <- tweets.df[duplicated(tweets.df) == FALSE,] 
dim(df.undup)

結果のデータ フレームには常に 100 行が含まれるため、元のツイートの量は 100 になります。

dim(df.undup)
tweets [1] 100 12

私の質問は次のとおりです。これは twitter API と関係がありますか?どうすればこの問題を回避できますか?

Mac OS X 10.7.5 で R バージョン 2.15.3 を使用しています。

4

2 に答える 2

0

パッケージのインストールに成功しました。誰かが興味を持っている場合に備えて、私が使用したコードを次に示します。しかし、問題は変わらず、元のツイートは 100 のままです。

重複に関して異なる結果が得られるのはなぜだろうか。

install.packages("~/Downloads/ROAuth_0.9.4.tar.gz",
             repos=NULL,type="source",
             INSTALL_opts="--no-multiarch")

install.packages("~/Downloads/twitteR_1.1.5.tar.gz",
             repos=NULL,type="source",
             INSTALL_opts="--no-multiarch")

library(twitteR)
library(ROAuth)

tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))

df.undup <- tweets.df[duplicated(tweets.df) == FALSE,]
dim(df.undup)

dim(df.undup)
[1] 100  12
于 2013-04-03T23:57:35.337 に答える