テキスト マイニング パッケージは、独自のストップワード リストを保持し、このタイプのテキストを管理および要約するための便利なツールを提供します。
あなたのつぶやきがベクトルに保存されているとしましょう。
library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x,
stopwords()))
独自のストップワード () のリストで最後の行を使用できます。
stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... )
残念ながら、「テキスト メッセージング」または「インターネット メッセージング」のストップワードの独自のリストを生成する必要があります。
しかし、NetLingo ( http://vps.netlingo.com/acronyms.php )から借りることで、少しごまかすことができます。
library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)