PDFからデータを抽出するスクリプトを作成しました。win32clipboard モジュールを使用して、データを Python にコピーしています。各ファイルで必要なデータを取得する方法に関するロジックを取得しました。
私のプロセスの欠点は、各pdf Ctr-Aを開いてすべてを選択し、次にCtrl-Cを開いてクリップボードに入れる必要があることです。次に、スクリプトを実行します。参考までに、DataNitro を使用して Excel 内で実行しています。
PDFMiner を試してみましたが、維持されていないようで、テキストが小さなビットに分割される傾向があります。マイニングしているPDFには、「小さな」テーブルがたくさん含まれています。クリップボードからのコピーは、関連するものをまとめるというかなり降下した仕事をしているようです。
すべてを選択してコピーするPDFを開くスクリプトを作成する方法についての提案。基本的に、OS をスクリプト化する Python の方法を探しています。直感的には、これは不可能だと思いますが、誰かが知っているかもしれません。