java - pdfboxを使用して表形式のデータを含むpdfを解析する方法

Question

itextまたはpdfboxを使用してテーブルデータを抽出する方法について誰か助けてもらえますか?私は1000ページのPDFを持っています.私の仕事はPDFを解析してデータをデータベースに保存することです.

score 4 · Accepted Answer

PDFには、テーブルを定義するための追加のXMLが含まれていない限り、テーブル構造要素は含まれていません。それ以外の場合、構造はありません。調べる方法について書いたブログ記事があります。

PdfBoxのようないくつかのツールはテーブルを推測する努力をしますが、それはヒットしてミスする可能性があります

score 1 · Accepted Answer

このコードを使用して、データを文字列形式で抽出できます。

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

次に、Java正規表現を使用して行ごとに解析し、値をJava POJO Beanにロードできます。

2 に答える 2