1

よく知られている Reuters-21578 データセットを使用していくつかの作業を行おうとしていますが、コーパスに sgm ファイルをロードする際に問題が発生しています。

現在、私はコマンドを使用しています

require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))

すべてのファイルをコーパスに含めようとすると、次のエラーが表示されます。

Error in DirSource(reut21578) : empty directory

私が間違っている可能性がある場所はありますか?

4

1 に答える 1

6

「tm」パッケージには、Reuters21578 データのサンプルのみが含まれています。22 個の Reuters21578 ファイルすべてのダウンロード、ロード、および準備を回避したい場合は、パッケージ「tm.corpus.Reuters21578」を使用できます。

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)
于 2015-12-15T17:17:43.620 に答える