さまざまなドキュメントで繰り返される段落全体を削除しようとしています。これは、電子メールの最後にある免責事項です。たとえば、「レビュー、再送信、この電子メールのその他の使用....」などです。
docs<-Corpus(VectorSource(text$Description))
toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/|@|\\|")
docs <- tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, removeWords, paste0(
"any ",
"review ",
"retransmission, ",
"dissemination ...)
機能していません。個々の単語を削除することはできません。一部の単語は価値がある可能性があるためです...何か提案はありますか?