java - ラテックスで生成されたJavaでpdfを解析する方法（章やセクションのような構造を取得するため）

Question

質問があります。PDFドキュメントから構造化テキストを抽出しようとしています。通常、pdf には構造がないため、ラテックスで生成された pdf の解析を開始できると考えました。

PDFの解析に使用できるラテックスで生成されたPDFにパターンがあることを知っていますか?

score 4 · Accepted Answer

PDF ドキュメントからテキストを解析するには、PDF Boxをご覧ください。または、複数のドキュメントタイプの解析を提供するApache Tikaを標準インターフェイスで使用することもできます (やり過ぎかもしれません)。これを手動で行うことはお勧めしません。

score 0 · Accepted Answer

商用ソリューション Infty Reader

http://www.sciaccess.net/en/InftyReader/index.html

試用モードでは、認識は毎回 1 ページに制限され、1 日あたり 5 ページに制限されます。

端末と

2 に答える 2