0

マーチン・ルーサー・キングの「私には夢がある」という演説の用語ごとの頻度を見つけようとしています。すべての大文字を小文字に変換し、ストップ ワードをすべて削除しました。.txt ファイルにテキストがあるため、ここには表示できません。ファイルを読み込むコードは次のとおりです。

 speech <- readLines(speech.txt)

次に、小文字への変換とストップ ワードの削除を正常に実行し、次のように呼び出しました。

 clean.speech 

現在、用語ごとの頻度を見つけるのに問題があります。コーパスを作成し、コーパスを調べて、次のように TermDocumentMatrix を作成しました。

 myCorpus <- Corpus(VectorSource(clean.speech))
 inspect(myCorpus)
 TDM <- TermDocumentMatrix(myCorpus)

この時点まではすべて問題ありません。ただし、次のコードを記述したところ、次の警告メッセージが表示されました。

 m < as.matrix(TDM)

 Warning Message:
 "In m < as.matrix(TDM): longer object length is not a multiple of shorter  object length

これは非常に一般的な警告メッセージであることはわかっているので、最初に Google で検索しましたが、用語の頻度に関する情報は見つかりませんでした。次のテキストを実行して、警告メッセージが表示されるかどうかを確認しましたが、実行されませんでした。

 v <- sort(rowSums(m), decreasing = TRUE)
 d <- data.frame(word=names(v), freq=v)
 head(d, 15)

私の目標は、用語の頻度を見つけることです。このような質問が多く寄せられていることを知っているため、このような質問をしたことを心からお詫び申し上げます。コードの何を変更すればよいかわかりません。ありがとうございます!

4

2 に答える 2