RでPDFファイルからテキストデータを解析することは可能ですか? そのような抽出に関連するパッケージはないようですが、Rでこれを試みた、または見た人はいますか?
Python には PDFMiner がありますが、この分析はできればすべて R で行いたいと考えています。
助言がありますか?
RでPDFファイルからテキストデータを解析することは可能ですか? そのような抽出に関連するパッケージはないようですが、Rでこれを試みた、または見た人はいますか?
Python には PDFMiner がありますが、この分析はできればすべて R で行いたいと考えています。
助言がありますか?
Linuxシステムにはpdftotext、私がかなりの成功を収めたものがあります。デフォルトではfoo.txt、giveから作成しますfoo.pdf。
とはいえ、テキストマイニングパッケージにはコンバーターが含まれている場合があります。rseek.orgをすばやく検索すると、crantastic検索と一致するようです。
これは非常に古いスレッドですが、今後の参考のために: pdftools R パッケージは PDF からテキストを抽出します。
同僚がこの便利なオープンソース ツールを紹介してくれました: http://tabula.nerdpower.org/ . PDF をインストールしてアップロードし、データ化が必要な PDF 内のテーブルを選択します。R での直接的な解決策ではありませんが、手作業よりは確実に優れています。