PDF ファイルからテーブルを抽出する一貫した方法はありますか? ツールはありますか?
私がこれまでに行ったこと:
pdftotext
ツールを試してみました。HTML レイアウトに変換するオプションがあります。
これの問題は何ですか:
- テーブル情報は HTML 出力に保持されません
- タグを期待
<table>
していましたが、すべてが<p>
タグの下にありました。
表の構造を示すマーカーは PDF ドキュメントに含まれますか? のよう<table>
に、<tr>
そして<td>
HTML で?
「はい」の場合、これへのポインタは役に立ちます。「いいえ」の場合、この事実に関する明確な情報も役立ちます。