それも可能ですか!?!
データベースにインポートする必要があるレガシー レポートが多数あります。ただし、それらはすべてpdf形式です。R
PDFを読めるパッケージはありますか? それともコマンドラインツールに任せるべきでしょうか?
レポートは Excel で作成されてから pdf 化されているため、規則的な構造になっていますが、多くの空白の「セル」があります。
それも可能ですか!?!
データベースにインポートする必要があるレガシー レポートが多数あります。ただし、それらはすべてpdf形式です。R
PDFを読めるパッケージはありますか? それともコマンドラインツールに任せるべきでしょうか?
レポートは Excel で作成されてから pdf 化されているため、規則的な構造になっていますが、多くの空白の「セル」があります。
だから...これはかなり複雑なテーブルでも私を近づけます。
bmipdfからサンプルpdfをダウンロードします
library(tm)
pdf <- readPDF(PdftotextOptions = "-layout")
dat <- pdf(elem = list(uri='bmi_tbl.pdf'), language='en', id='id1')
dat <- gsub(' +', ',', dat)
out <- read.csv(textConnection(dat), header=FALSE)
データの抽出を望んでいる可能性のある他の人への単なる警告:PDFはコンテナであり、フォーマットではありません。テキストのビットマップ画像や、想像以上に醜いものとは対照的に、元のドキュメントに実際のテキストが含まれていない場合は、OCR以外の何物も役に立ちません。
その上、私の悲しい経験では、PDFドキュメントを作成するアプリがすべて同じように動作するという保証はありません。そのため、テーブル内のデータが希望の順序で読み取られる場合とされない場合があります(ドキュメントの方法の結果として)構築された)。注意してください。
おそらく、2人の大学院生にデータを転記させる方がよいでしょう。彼らは安いです:-)
(現在) 新しい (2015-07) パッケージを使用することもできますRpoppler
:
Rpoppler::PDF_text(file)
これには 3 つの関数が含まれています (実際には 4 つですが、そのうちの 1 つは PDF オブジェクトへの ptr を取得するだけです)。
PDF_fonts
PDFフォント情報PDF_info
PDF文書情報PDF_text
PDF テキスト抽出(新しい検索者がパッケージを見つけやすくするための回答として投稿します)。
per zx8754 ... 以下は、Win7 で作業ディレクトリに pdftotext.exe を使用して動作します。
library(tm)
uri = 'bmi_tbl.pdf'
pdf = readPDF(control = list(text = "-layout"))(elem = list(uri = uri),
language = "en", id = "id1")