複数ページの PDF でテキスト (請求書番号など) を検索し、そのページを別のファイルに抽出する方法を知っている人はいますか? FPDI を使用して特定のページを抽出し、FPDFを使用して変更および保存する方法がわかります。私が理解できない部分は、pdfを検索して、テキストが含まれているページ番号を特定する方法です。これはphpで行うのが望ましいですが、必要に応じて他のものを使用したいと思います。
何か提案はありますか?
ありがとうございました。
このページは解決策を見つけるのに役立ちました:
http://www.freak-search.com/en/thread/2817957/find_page_number_containing_a_given_text
基本的には、bash スクリプト (リンクを参照) でコマンド ライン プログラム「pdftotext」を使用してページ番号を返し、次に FPDI を使用してページを抽出します。よく働く。