r - 'tm' コーポライズされた用語ドキュメントマトリックスでストップワードが除外されないのはなぜですか?

翻译自：https://stackoverflow.com/questions/32105352 2015-08-19T20:45:55.263

66 次

ライブラリを使用して、用語とドキュメントのマトリックスを構築していtmます。

# Create corpus.
corporize <- function(dir_to_corporize)
{
    crp <- Corpus(DirSource(dir_to_corporize, mode="text", encoding="ASCII"),
                 readerControl=list(reader=readPlain, language="en_EN"))
    crp <- tm_map(crp, removeWords, stopwords("english"))
    crp <- tm_map(crp, removePunctuation, preserve_intra_word_dashes=F)
    crp <- tm_map(crp, removeNumbers)
    crp <- tm_map(crp, stripWhitespace)
    crp <- tm_map(crp, content_transformer(tolower))
}

ただし、用語と文書のマトリックスを確認すると、いくつかのストップワードが残っていることがわかりました。

the last time i saw
we need talk about kevin
you make me feel like

それはなぜですか、どうすればよいですか？

r - 'tm' コーポライズされた用語ドキュメント マトリックスでストップワードが除外されないのはなぜですか?

1 に答える 1

Related

Reference

r - 'tm' コーポライズされた用語ドキュメントマトリックスでストップワードが除外されないのはなぜですか?