3

R を使用してツイートをマイニングし、ツイートで最も頻繁に使用される単語を取得しました。ただし、最も頻繁に使用される単語は次のようなものです。

 [1] "cant"     "dont"     "girl"     "gonna"    "lol"      "love"    
 [7] "que"      "thats"    "watching" "wish"     "youre"  

テキストでトレンドや名前、イベントを探しています。このテキスト メッセージ スタイルの単語 (gont、wanna、... など) をコーパスから削除する方法があるかどうか疑問に思っています。それらのストップワードはありますか?任意の助けをいただければ幸いです。

4

1 に答える 1

4

テキスト マイニング パッケージは、独自のストップワード リストを保持し、このタイプのテキストを管理および要約するための便利なツールを提供します。

あなたのつぶやきがベクトルに保存されているとしましょう。

library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x, 
                stopwords()))

独自のストップワード () のリストで最後の行を使用できます。

stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... ) 

残念ながら、「テキスト メッセージング」または「インターネット メッセージング」のストップワードの独自のリストを生成する必要があります。

しかし、NetLingo ( http://vps.netlingo.com/acronyms.php )から借りることで、少しごまかすことができます。

library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)
于 2012-11-26T08:05:54.390 に答える