java - 指定された座標からテキストを抽出できる PDF 解析ライブラリはありますか?

Question

おはようございます。指定されたフィールドとセクションの仕様に従って、PDF ファイル (銀行の請求書) からテキストを抽出するタスクが割り当てられました。この仕様は、YAML ファイルで提供されます。フィールドは、テキストが存在する長方形の左上と右下、およびフィールドの名前の 2 つの座標のセットとして表されます。SnakeYAML を使用して、この情報をオブジェクトにロードしています。私はここまで成功しています。次の部分では、このデータを使用して PDF からテキストを抽出する必要があります。1 つは、どの PDF 解析ライブラリを使用するかをまだ決定できていないことです。私のタスクに適した PDF 解析ライブラリを教えてください。また、上記のタスクを達成するにはどうすればよいですか? ありがとう！

score 2 · Accepted Answer

PDF Boxは、特定の領域からテキストを抽出できます。PDFTextStripperByAreaをご覧ください。

java - 指定された座標からテキストを抽出できる PDF 解析ライブラリはありますか?

1 に答える 1

Related

Reference