java - いくつかのキーに基づいてPDFからコンテンツを読み取る

Question

以下のように、いくつかのコードが散らばっている（固定位置なし）いくつかのpdfがあります。

oneCode=abcd
twoCode=4566

すべてのpdfを解析してキー「oneCode」または「twoCode」を見つけ、Javaプログラム内から対応する値を取得したいと考えています。

このような機能は、PDFBox などのオープンソースの PDF パーサーで利用できますか?

例を挙げてください。

さらに、私の PDF は巨大なものから非常に小さなものまでさまざまなサイズである可能性があり、一度にプログラムから何千もの PDF を解析する必要がある場合があります。そのため、完全な pdf を解析し、解析されたテキストからキーを検索すると、非常に遅くなる可能性があります。

私のシナリオに役立つ既存の機能はありますか?

読んでくれてありがとう！

score 0 · Accepted Answer

線形検索よりも高速に実行できるとは思いません。並べ替えまたはインデックス作成のアクションだけでも、少なくとも O(n) のオーダーが必要になるため、インデックス検索が高速なリーダーが存在する場合でも、リードの前処理時間が必要になります。

データをすばやく読み取ることができるように、データをメモリにすばやく転送できるリーダーを見つける必要があります。

1 に答える 1