0

R で pdf ファイルを分析しようとしています。 data.library.virginia.edu/reading-pdf-files-into-r-for-text-mining/ の指示に従ってください。最初のいくつかの手順はうまくいきましたが、どうにかして PDF ファイルを R のリストに接続する必要があることに気付きました。Windows で関数 xpdf を使用するための指示を正しく使用したと思います。

以下は、これまでの R での私のコーディングです。

library(tm)
files <- list.files(pattern = "pdf$")

Rpdf <- readPDF(control = list(text = "-layout"))
Comments <- Corpus(URISource(files), 
                   readerControl = list(reader = Rpdf))
Comments.tdm <- TermDocumentMatrix(Comments, control = list(removePunctuation = TRUE,
                                                            stopwords = TRUE,
                                                            tolower = TRUE,
                                                            stemming = TRUE,
                                                            removeNumbers = TRUE,
                                                            bounds = list(global = c(3, Inf)))) 

これは、このフォーラムで初めての質問です (まったくの初心者です)。不明な点がある場合、またはこの質問を間違って作成した場合は、喜んでお聞きします。

4

0 に答える 0