私は pdftohtml を試していますが、テーブルを正しく解析するのが難しい場合があります。2 つの列のテキストを 1 つのセルにグループ化しているため、結果のデータを解析しようとしても無駄です!
これは PDF 内で 1 回か 2 回しか発生しないため、まったく予測できないことに注意してください。
pdftohtml の最新バージョン (0.40a ベータ版を含む) を試しましたが、役に立ちませんでした。
試してみる価値のある Linux 互換の同等品を知っている人はいますか?
ありがとう、
サム