1

おはようございます。指定されたフィールドとセクションの仕様に従って、PDF ファイル (銀行の請求書) からテキストを抽出するタスクが割り当てられました。この仕様は、YAML ファイルで提供されます。フィールドは、テキストが存在する長方形の左上と右下、およびフィールドの名前の 2 つの座標のセットとして表されます。SnakeYAML を使用して、この情報をオブジェクトにロードしています。私はここまで成功しています。次の部分では、このデータを使用して PDF からテキストを抽出する必要があります。1 つは、どの PDF 解析ライブラリを使用するかをまだ決定できていないことです。私のタスクに適した PDF 解析ライブラリを教えてください。また、上記のタスクを達成するにはどうすればよいですか? ありがとう!

4

1 に答える 1

2

PDF Boxは、特定の領域からテキストを抽出できます。PDFTextStripperByAreaをご覧ください。

于 2011-09-02T09:09:10.403 に答える