twitteR パッケージの CRAN バージョンを使用して抽出した twitter データの操作に問題があります。特に、tm パッケージからの tolower 変換。
これは私が現在やっていることです:
#oauth handshake and so on work fine
google_8.10<- searchTwitter("#Google", n=1500, cainfo="cacert.pem")
google_8.10_text <- sapply(google_8.10, function(x) x$getText())
google_8.10_text_corpus <- Corpus(VectorSource(google_8.10_text))
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower)
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, removePunctuation)
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, function(x)removeWords(x,stopwords()))
他の変換は正常に完了します (tolower が実行されていない場合)。ただし、より低い変換は次を返します。
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower)
Warnmeldung:
In parallel::mclapply(x, FUN, ...) :
all scheduled cores encountered errors in user code
これはいずれかのツイートのキャラクターが原因ではないかと疑っていますが、どうすれば問題を突き止めることができますか?
編集: 確かに、特定の文字がこれを引き起こしているようです。
"#Google #TheInternship THE BEST MOVIE EVER @Jeennyy01 @dylanobrien I love this part \ud83d\ude1c http://t.co/iok5vm83cP"
ここで「\ud83d\ude1c」の部分がエラーの原因です。ツイートからこれらのフレーズ (これはhttp://www.charbase.com/1f61c-unicode-face-with-stuck-out-tongue-and-winking-eye ) を自動的に削除する方法についてのアイデアはありますか?