3

「tm」パッケージを使用して、ロイター 21578 コーパス (1987 年以降のすべてのロイター ニュース記事) を分析しています。XML ファイルを R データ ファイルにインポートした後、テキストをクリーンアップします。プレーンテキストに変換し、小文字に変換し、ストップ ワードを削除します (以下を参照)。次に、コーパスをドキュメント ターム マトリックスに変換します。しかし、次のエラー メッセージが表示されます。

UseMethod("Content", x) のエラー: クラス "character" のオブジェクトに適用される 'Content' に適用可能なメソッドがありません

すべての前処理ステップは、文書用語マトリックスまで正しく機能します。

コーパスの非ランダム サブセット (4000 ドキュメント) を作成しましたが、ドキュメント ターム マトリックス コマンドはそれで正常に動作します。

私のコードは以下です。助けてくれてありがとう。

##Import
file <- "reut-full.xml" 
reuters <- Corpus(ReutersSource(file), readerControl = list(reader = readReut21578XML))

## Convert to Plain Text Documents
reuters <- tm_map(reuters, as.PlainTextDocument)

## Convert to Lower Case
reuters <- tm_map(reuters, tolower)

## Remove Stopwords
reuters <- tm_map(reuters, removeWords, stopwords("english"))

## Remove Punctuations
reuters <- tm_map(reuters, removePunctuation)

## Stemming
reuters <- tm_map(reuters, stemDocument)

## Remove Numbers
reuters <- tm_map(reuters, removeNumbers)

## Eliminating Extra White Spaces
reuters <- tm_map(reuters, stripWhitespace)

## create a term document matrix
dtm <- DocumentTermMatrix(reuters)

Error in UseMethod("Content", x) : 
  no applicable method for 'Content' applied to an object of class "character"
4

0 に答える 0