PDFcreator で作成した PDF があります。各複数ページの PDF の最初のページには、特定する必要がある郵送先住所があります。PDF の特定の領域内でテキスト検索を行う方法はありますか?
CAM::PDFとpdftotextを見つけましたが、検索を特定の領域に限定する方法がわかりません。同じ PDF に別のアドレスが表示される可能性があるため、私の主な関心事は正確さです。また、PDF 全体を検索するのはおそらく遅すぎます。
Pdftotext は、まさにあなたがやりたいことを実現できます。CAM::PDF でもできると確信していますが、過去にそのツールを使用して座標情報を返すことはありませんでした。
ページ全体で pdftotext を実行し、xml 出力を保存してから、結果をくまなく調べます。ページ上のすべての単語の xMin/xMax/yMin/yMax 値が表示されます。次に、これらの座標を使用して、事前に定義した境界内にある単語のみのリストを作成できます。
ただし、複数行の住所をスムーズに識別することは、特に定義された領域内に住所以外のテキストが存在する可能性がある場合、独自の課題を提示する可能性があります。