r - tm パッケージエラー: ドキュメント用語マトリックスの定義エラー

Question

「tm」パッケージを使用して、ロイター 21578 コーパス (1987 年以降のすべてのロイターニュース記事) を分析しています。XML ファイルを R データファイルにインポートした後、テキストをクリーンアップします。プレーンテキストに変換し、小文字に変換し、ストップワードを削除します (以下を参照)。次に、コーパスをドキュメントタームマトリックスに変換します。しかし、次のエラーメッセージが表示されます。

UseMethod("Content", x) のエラー: クラス "character" のオブジェクトに適用される 'Content' に適用可能なメソッドがありません

すべての前処理ステップは、文書用語マトリックスまで正しく機能します。

コーパスの非ランダムサブセット (4000 ドキュメント) を作成しましたが、ドキュメントタームマトリックスコマンドはそれで正常に動作します。

私のコードは以下です。助けてくれてありがとう。

##Import
file <- "reut-full.xml" 
reuters <- Corpus(ReutersSource(file), readerControl = list(reader = readReut21578XML))

## Convert to Plain Text Documents
reuters <- tm_map(reuters, as.PlainTextDocument)

## Convert to Lower Case
reuters <- tm_map(reuters, tolower)

## Remove Stopwords
reuters <- tm_map(reuters, removeWords, stopwords("english"))

## Remove Punctuations
reuters <- tm_map(reuters, removePunctuation)

## Stemming
reuters <- tm_map(reuters, stemDocument)

## Remove Numbers
reuters <- tm_map(reuters, removeNumbers)

## Eliminating Extra White Spaces
reuters <- tm_map(reuters, stripWhitespace)

## create a term document matrix
dtm <- DocumentTermMatrix(reuters)

Error in UseMethod("Content", x) : 
  no applicable method for 'Content' applied to an object of class "character"

r - tm パッケージ エラー: ドキュメント用語マトリックスの定義エラー

0 に答える 0

Related

Reference

r - tm パッケージエラー: ドキュメント用語マトリックスの定義エラー