R で pdf ファイルを分析しようとしています。 data.library.virginia.edu/reading-pdf-files-into-r-for-text-mining/ の指示に従ってください。最初のいくつかの手順はうまくいきましたが、どうにかして PDF ファイルを R のリストに接続する必要があることに気付きました。Windows で関数 xpdf を使用するための指示を正しく使用したと思います。
以下は、これまでの R での私のコーディングです。
library(tm)
files <- list.files(pattern = "pdf$")
Rpdf <- readPDF(control = list(text = "-layout"))
Comments <- Corpus(URISource(files),
readerControl = list(reader = Rpdf))
Comments.tdm <- TermDocumentMatrix(Comments, control = list(removePunctuation = TRUE,
stopwords = TRUE,
tolower = TRUE,
stemming = TRUE,
removeNumbers = TRUE,
bounds = list(global = c(3, Inf))))
これは、このフォーラムで初めての質問です (まったくの初心者です)。不明な点がある場合、またはこの質問を間違って作成した場合は、喜んでお聞きします。