「tm」パッケージを使用して、ロイター 21578 コーパス (1987 年以降のすべてのロイター ニュース記事) を分析しています。XML ファイルを R データ ファイルにインポートした後、テキストをクリーンアップします。プレーンテキストに変換し、小文字に変換し、ストップ ワードを削除します (以下を参照)。次に、コーパスをドキュメント ターム マトリックスに変換します。しかし、次のエラー メッセージが表示されます。
UseMethod("Content", x) のエラー: クラス "character" のオブジェクトに適用される 'Content' に適用可能なメソッドがありません
すべての前処理ステップは、文書用語マトリックスまで正しく機能します。
コーパスの非ランダム サブセット (4000 ドキュメント) を作成しましたが、ドキュメント ターム マトリックス コマンドはそれで正常に動作します。
私のコードは以下です。助けてくれてありがとう。
##Import
file <- "reut-full.xml"
reuters <- Corpus(ReutersSource(file), readerControl = list(reader = readReut21578XML))
## Convert to Plain Text Documents
reuters <- tm_map(reuters, as.PlainTextDocument)
## Convert to Lower Case
reuters <- tm_map(reuters, tolower)
## Remove Stopwords
reuters <- tm_map(reuters, removeWords, stopwords("english"))
## Remove Punctuations
reuters <- tm_map(reuters, removePunctuation)
## Stemming
reuters <- tm_map(reuters, stemDocument)
## Remove Numbers
reuters <- tm_map(reuters, removeNumbers)
## Eliminating Extra White Spaces
reuters <- tm_map(reuters, stripWhitespace)
## create a term document matrix
dtm <- DocumentTermMatrix(reuters)
Error in UseMethod("Content", x) :
no applicable method for 'Content' applied to an object of class "character"