0

それで、レポートを作成する必要がある請求書があります。平均して約250ページの長さです。そこで、請求書の特定の値を抽出してレポートを作成するスクリプトを作成しようとしています。これが私の問題です:

  1. 請求書は 2 列にまたがる PDF 形式です。Linuxコマンドでは、「pdftotext」Linuxコマンドを使用して複数のテキストファイルに変換したい(各txtファイルは各pdfページを表す)。それ、どうやったら出来るの
  2. 「pdftotext」コマンドは、ページの左側の部分とページの右側の部分を 21 個のスペースで分割することを認識しています。データの右側 (連続して少なくとも 21 個のスペースを読み取った後に識別される) をファイルの末尾に移動するにはどうすればよいですか?
  3. ファイルが大きく、ファイルの最後の数ページしかないため、キーワードを読み取るまで (手動ではなく) スクリプト内のすべてのテキスト ファイルを削除するにはどうすればよいですか (キーワード = Start Invoice としましょう)。

これには多くの質問があることは承知していますが、Linux コマンドで何ができるかについて混乱しています。正しい方向に私を導くことができますか?ありがとう

PS:私は使用していますCentOS 5.2

4

1 に答える 1

0

どうですか:

pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT

ただし、 とオプションも確認する必要がpdftotextあります。そして、それを行うにはもっと多くの方法があります...-raw-layout

于 2012-04-06T07:53:34.167 に答える