私はRを使用したプロジェクトに参加しており、手を汚し始めています。
最初の部分では、ベクトル msg のデータをクリーンアップしようとします。しかし、後で をビルドするとtermdocumentmatrix
、これらの文字がまだ表示されます。4 文字未満の単語と句読点を削除したい
gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
gsub("[[:punct:]]", "", pclbyshares$msg)
corpus <- Corpus(VectorSource(pclbyshares$msg))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)