PDFファイルから一連のテーブルを取得することを含む、自動化しようとしている手順があります。現在、任意のビューアー (Adobe、Sumatra、okular など) でファイルを開き、Ctrl+A、Ctrl+C、Ctrl+V をメモ帳に入力するだけで、各行を適切な位置に揃えることができます。正規表現を実行し、後で必要な場合に備えてコピーして Excel に貼り付けるだけで十分な形式です。
Pythonでこれをやろうとしたとき、私はさまざまなモジュールを試しました.PDFminerは、この例を使用して動作するメインのモジュールです。ただし、データは単一の列で返されます。他のオプションには、単にhtml table として取得することも含まれますが、この場合、解析をより複雑にする余分な分割を中間テーブルに追加したり、最初のページと 2 番目のページの間で列を切り替えたりすることさえあります。
今のところ一時的な解決策が機能していますが、おそらくパーサーのコアオプションが欠けているか、PDFレンダラーの方法の基本的なオプションを検討する必要があるときに、車輪を再発明しているのではないかと心配しています.これを解決するために働きます。
それにアプローチする方法から何かアイデアはありますか?