マーチン・ルーサー・キングの「私には夢がある」という演説の用語ごとの頻度を見つけようとしています。すべての大文字を小文字に変換し、ストップ ワードをすべて削除しました。.txt ファイルにテキストがあるため、ここには表示できません。ファイルを読み込むコードは次のとおりです。
speech <- readLines(speech.txt)
次に、小文字への変換とストップ ワードの削除を正常に実行し、次のように呼び出しました。
clean.speech
現在、用語ごとの頻度を見つけるのに問題があります。コーパスを作成し、コーパスを調べて、次のように TermDocumentMatrix を作成しました。
myCorpus <- Corpus(VectorSource(clean.speech))
inspect(myCorpus)
TDM <- TermDocumentMatrix(myCorpus)
この時点まではすべて問題ありません。ただし、次のコードを記述したところ、次の警告メッセージが表示されました。
m < as.matrix(TDM)
Warning Message:
"In m < as.matrix(TDM): longer object length is not a multiple of shorter object length
これは非常に一般的な警告メッセージであることはわかっているので、最初に Google で検索しましたが、用語の頻度に関する情報は見つかりませんでした。次のテキストを実行して、警告メッセージが表示されるかどうかを確認しましたが、実行されませんでした。
v <- sort(rowSums(m), decreasing = TRUE)
d <- data.frame(word=names(v), freq=v)
head(d, 15)
私の目標は、用語の頻度を見つけることです。このような質問が多く寄せられていることを知っているため、このような質問をしたことを心からお詫び申し上げます。コードの何を変更すればよいかわかりません。ありがとうございます!