0

PDFからデータを抽出するスクリプトを作成しました。win32clipboard モジュールを使用して、データを Python にコピーしています。各ファイルで必要なデータを取得する方法に関するロジックを取得しました。

私のプロセスの欠点は、各pdf Ctr-Aを開いてすべてを選択し、次にCtrl-Cを開いてクリップボードに入れる必要があることです。次に、スクリプトを実行します。参考までに、DataNitro を使用して Excel 内で実行しています。

PDFMiner を試してみましたが、維持されていないようで、テキストが小さなビットに分割される傾向があります。マイニングしているPDFには、「小さな」テーブルがたくさん含まれています。クリップボードからのコピーは、関連するものをまとめるというかなり降下した仕事をしているようです。

すべてを選択してコピーするPDFを開くスクリプトを作成する方法についての提案。基本的に、OS をスクリプト化する Python の方法を探しています。直感的には、これは不可能だと思いますが、誰かが知っているかもしれません。

4

1 に答える 1

0

私はpyPdfを使用することにしました。PDFからテキストを抽出するだけの簡単な方法があります。このテキストで必要な関連情報を見つけるための簡単な関数を作成しました。データを簡単に識別できるように、テキストをリストに分割します。

グロブ検索を使用して関連ファイルを取得し、それをパーサーにフィードするためのループも作成しました。

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
data = ''
for page in pdf.pages:
   data += page.extractText()
data2 = data.split('\n')
于 2013-09-09T13:49:22.037 に答える