PDF ファイルからテーブルを抽出する一貫した方法はありますか? ツールはありますか?
私がこれまでに行ったこと:
pdftotextツールを試してみました。HTML レイアウトに変換するオプションがあります。
これの問題は何ですか:
- テーブル情報は HTML 出力に保持されません
- タグを期待
<table>していましたが、すべてが<p>タグの下にありました。
表の構造を示すマーカーは PDF ドキュメントに含まれますか? のよう<table>に、<tr>そして<td>HTML で?
「はい」の場合、これへのポインタは役に立ちます。「いいえ」の場合、この事実に関する明確な情報も役立ちます。