それで、レポートを作成する必要がある請求書があります。平均して約250ページの長さです。そこで、請求書の特定の値を抽出してレポートを作成するスクリプトを作成しようとしています。これが私の問題です:
- 請求書は 2 列にまたがる PDF 形式です。Linuxコマンドでは、「pdftotext」Linuxコマンドを使用して複数のテキストファイルに変換したい(各txtファイルは各pdfページを表す)。それ、どうやったら出来るの
- 「pdftotext」コマンドは、ページの左側の部分とページの右側の部分を 21 個のスペースで分割することを認識しています。データの右側 (連続して少なくとも 21 個のスペースを読み取った後に識別される) をファイルの末尾に移動するにはどうすればよいですか?
- ファイルが大きく、ファイルの最後の数ページしかないため、キーワードを読み取るまで (手動ではなく) スクリプト内のすべてのテキスト ファイルを削除するにはどうすればよいですか (キーワード = Start Invoice としましょう)。
これには多くの質問があることは承知していますが、Linux コマンドで何ができるかについて混乱しています。正しい方向に私を導くことができますか?ありがとう
PS:私は使用していますCentOS 5.2