44

RでPDFファイルからテキストデータを解析することは可能ですか? そのような抽出に関連するパッケージはないようですが、Rでこれを試みた、または見た人はいますか?

Python には PDFMiner がありますが、この分析はできればすべて R で行いたいと考えています。

助言がありますか?

4

7 に答える 7

29

Linuxシステムにはpdftotext、私がかなりの成功を収めたものがあります。デフォルトではfoo.txt、giveから作成しますfoo.pdf

とはいえ、テキストマイニングパッケージにはコンバーターが含まれている場合があります。rseek.orgをすばやく検索すると、crantastic検索と一致するようです。

于 2010-10-04T01:56:22.343 に答える
28

これは非常に古いスレッドですが、今後の参考のために: pdftools R パッケージは PDF からテキストを抽出します。

于 2016-07-06T08:08:13.663 に答える
9

同僚がこの便利なオープンソース ツールを紹介してくれました: http://tabula.nerdpower.org/ . PDF をインストールしてアップロードし、データ化が必要な PDF 内のテーブルを選択します。R での直接的な解決策ではありませんが、手作業よりは確実に優れています。

于 2013-08-05T17:48:47.080 に答える