1

私はRを使用したプロジェクトに参加しており、手を汚し始めています。

最初の部分では、ベクトル msg のデータをクリーンアップしようとします。しかし、後で をビルドするとtermdocumentmatrix、これらの文字がまだ表示されます。4 文字未満の単語と句読点を削除したい

gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
gsub("[[:punct:]]", "", pclbyshares$msg) 
corpus <- Corpus(VectorSource(pclbyshares$msg))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)
4

1 に答える 1