r - つぶやきとテキストメッセージスタイルのストップワードを探しています

Question

R を使用してツイートをマイニングし、ツイートで最も頻繁に使用される単語を取得しました。ただし、最も頻繁に使用される単語は次のようなものです。

 [1] "cant"     "dont"     "girl"     "gonna"    "lol"      "love"    
 [7] "que"      "thats"    "watching" "wish"     "youre"

テキストでトレンドや名前、イベントを探しています。このテキストメッセージスタイルの単語 (gont、wanna、... など) をコーパスから削除する方法があるかどうか疑問に思っています。それらのストップワードはありますか？任意の助けをいただければ幸いです。

score 4 · Accepted Answer

テキストマイニングパッケージは、独自のストップワードリストを保持し、このタイプのテキストを管理および要約するための便利なツールを提供します。

あなたのつぶやきがベクトルに保存されているとしましょう。

library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x, 
                stopwords()))

独自のストップワード () のリストで最後の行を使用できます。

stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... )

残念ながら、「テキストメッセージング」または「インターネットメッセージング」のストップワードの独自のリストを生成する必要があります。

しかし、NetLingo ( http://vps.netlingo.com/acronyms.php )から借りることで、少しごまかすことができます。

library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)

r - つぶやきとテキストメッセージスタイルのストップワードを探しています

1 に答える 1

Related

Reference