5

itextまたはpdfboxを使用してテーブルデータを抽出する方法について誰か助けてもらえますか?私は1000ページのPDFを持っています.私の仕事はPDFを解析してデータをデータベースに保存することです.

4

2 に答える 2

4

PDFには、テーブルを定義するための追加のXMLが含まれていない限り、テーブル構造要素は含まれていません。それ以外の場合、構造はありません。調べる方法について書いたブログ記事があります。

PdfBoxのようないくつかのツールはテーブルを推測する努力をしますが、それはヒットしてミスする可能性があります

于 2013-01-15T08:07:54.460 に答える
1

このコードを使用して、データを文字列形式で抽出できます。

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

次に、Java正規表現を使用して行ごとに解析し、値をJava POJO Beanにロードできます。

于 2014-02-18T13:26:12.517 に答える