以下のように、いくつかのコードが散らばっている(固定位置なし)いくつかのpdfがあります。
oneCode=abcd
twoCode=4566
すべてのpdfを解析してキー「oneCode」または「twoCode」を見つけ、Javaプログラム内から対応する値を取得したいと考えています。
このような機能は、PDFBox などのオープン ソースの PDF パーサーで利用できますか?
例を挙げてください。
さらに、私の PDF は巨大なものから非常に小さなものまでさまざまなサイズである可能性があり、一度にプログラムから何千もの PDF を解析する必要がある場合があります。そのため、完全な pdf を解析し、解析されたテキストからキーを検索すると、非常に遅くなる可能性があります。
私のシナリオに役立つ既存の機能はありますか?
読んでくれてありがとう!