pdf - PDF ファイルからのテキストデータの抽出

Question

RでPDFファイルからテキストデータを解析することは可能ですか? そのような抽出に関連するパッケージはないようですが、Rでこれを試みた、または見た人はいますか?

Python には PDFMiner がありますが、この分析はできればすべて R で行いたいと考えています。

助言がありますか？

score 29 · Accepted Answer

Linuxシステムにはpdftotext、私がかなりの成功を収めたものがあります。デフォルトではfoo.txt、giveから作成しますfoo.pdf。

とはいえ、テキストマイニングパッケージにはコンバーターが含まれている場合があります。rseek.orgをすばやく検索すると、crantastic検索と一致するようです。

score 28 · Accepted Answer

これは非常に古いスレッドですが、今後の参考のために: pdftools R パッケージは PDF からテキストを抽出します。

score 9 · Accepted Answer

同僚がこの便利なオープンソースツールを紹介してくれました: http://tabula.nerdpower.org/ . PDF をインストールしてアップロードし、データ化が必要な PDF 内のテーブルを選択します。R での直接的な解決策ではありませんが、手作業よりは確実に優れています。

pdf - PDF ファイルからのテキスト データの抽出