11

PDF ファイルからテーブルを抽出する一貫した方法はありますか? ツールはありますか?

私がこれまでに行ったこと:

  • pdftotextツールを試してみました。HTML レイアウトに変換するオプションがあります。

これの問題は何ですか:

  • テーブル情報は HTML 出力に保持されません
  • タグを期待<table>していましたが、すべてが<p>タグの下にありました。

表の構造を示すマーカーは PDF ドキュメントに含まれますか? のよう<table>に、<tr>そして<td>HTML で?

「はい」の場合、これへのポインタは役に立ちます。「いいえ」の場合、この事実に関する明確な情報も役立ちます。

4

2 に答える 2

19

ただし、できることは、を使用することpdftotext -layout input.pdf output.txtです。PDFをテキストファイルに印刷し、元のレイアウトが含まれています。タグはありませんが、少し気の利いたスクリプト (perl / php / なんでも) を使えば、テーブルからデータを復元できます。

単一のページで作業している場合は、おそらく手動で行う方がよいでしょうが、(私のように) 数百または数千のページで作業する必要がある場合は、それが最善の方法です。私は長い間見回してきましたが、pdftotext よりも優れた pdf-2-text ツールを見つけることができません。

出力には少し一貫性がありません。同様のすべての pdf テーブルが同様の txt 出力を生成するわけではありませんが、スクリプト作成が少し興味深いものになります。

于 2014-06-09T05:18:27.057 に答える
13

コンテンツをテーブル、行、セルなどとしてマークする情報 (タグと呼ばれる) が PDF ドキュメントにない場合、PDF ドキュメントからテーブルを抽出する一貫した方法はありません。ほとんどの場合、PDF ドキュメントにはこれらのタグが含まれていません。これらのタグは通常、PDF をアクセス可能にして、たとえば読み上げられるようにするために使用されます。これらのタグは、PDF が有効であるために必須ではありません。

于 2014-05-06T13:17:25.683 に答える