pdf - PDF からテーブルデータを抽出する

Question

PDF ファイルからテーブルを抽出する一貫した方法はありますか? ツールはありますか？

私がこれまでに行ったこと：

pdftotextツールを試してみました。HTML レイアウトに変換するオプションがあります。

これの問題は何ですか：

テーブル情報は HTML 出力に保持されません
タグを期待<table>していましたが、すべてが<p>タグの下にありました。

表の構造を示すマーカーは PDF ドキュメントに含まれますか? のよう<table>に、<tr>そして<td>HTML で？

「はい」の場合、これへのポインタは役に立ちます。「いいえ」の場合、この事実に関する明確な情報も役立ちます。

score 19 · Accepted Answer

ただし、できることは、を使用することpdftotext -layout input.pdf output.txtです。PDFをテキストファイルに印刷し、元のレイアウトが含まれています。タグはありませんが、少し気の利いたスクリプト (perl / php / なんでも) を使えば、テーブルからデータを復元できます。

単一のページで作業している場合は、おそらく手動で行う方がよいでしょうが、(私のように) 数百または数千のページで作業する必要がある場合は、それが最善の方法です。私は長い間見回してきましたが、pdftotext よりも優れた pdf-2-text ツールを見つけることができません。

出力には少し一貫性がありません。同様のすべての pdf テーブルが同様の txt 出力を生成するわけではありませんが、スクリプト作成が少し興味深いものになります。

score 13 · Accepted Answer

コンテンツをテーブル、行、セルなどとしてマークする情報 (タグと呼ばれる) が PDF ドキュメントにない場合、PDF ドキュメントからテーブルを抽出する一貫した方法はありません。ほとんどの場合、PDF ドキュメントにはこれらのタグが含まれていません。これらのタグは通常、PDF をアクセス可能にして、たとえば読み上げられるようにするために使用されます。これらのタグは、PDF が有効であるために必須ではありません。

pdf - PDF からテーブル データを抽出する

2 に答える 2

Related

Reference

pdf - PDF からテーブルデータを抽出する