最近Rを使ったテキストマイニングでバイグラムに困っています。目的は、ニュースで意味のあるキーワードを見つけることです。たとえば、「スマートカー」や「データマイニング」などです。
次のような文字列があるとします。
"IBM have a great success in the computer industry for the past decades..."
ストップワード ("have"、"a"、"in"、"the"、"for") を削除した後、
"IBM great success computer industry past decades..."
その結果、「成功したコンピューター」や「業界の過去」のようなバイグラムが発生します。
しかし、私が本当に必要としているのは、「コンピューター産業」が私が望むバイグラムの明確な例であるなど、2 つの単語の間にストップワードが存在しないことです。
私のコードの一部は以下の通りです:
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, stemDocument)
NgramTokenizer = function(x) {unlist(lapply(ngrams(words(x), 2), paste, collapse = " "), use.names = FALSE)}
dtm <- TermDocumentMatrix(corpus, control = list(tokenize = NgramTokenizer))
TFカウント時に「成功したコンピューター」などの言葉で結果を回避する方法はありますか?