ストップ ワードを削除したい文字列を含むデータ フレームがあります。tm
パッケージは大きなデータセットでありtm
、実行が少し遅いように見えるため、パッケージの使用を避けようとしています。私はtm
stopword
辞書を使っています。
library(plyr)
library(tm)
stopWords <- stopwords("en")
class(stopWords)
df1 <- data.frame(id = seq(1,5,1), string1 = NA)
head(df1)
df1$string1[1] <- "This string is a string."
df1$string1[2] <- "This string is a slightly longer string."
df1$string1[3] <- "This string is an even longer string."
df1$string1[4] <- "This string is a slightly shorter string."
df1$string1[5] <- "This string is the longest string of all the other strings."
head(df1)
df1$string1 <- tolower(df1$string1)
str1 <- strsplit(df1$string1[5], " ")
> !(str1 %in% stopWords)
[1] TRUE
これは私が探している答えではありません。ベクトルまたはベクトルにない単語の文字列を取得しようとしていますstopWords
。
私は何を間違っていますか?