itextまたはpdfboxを使用してテーブルデータを抽出する方法について誰か助けてもらえますか?私は1000ページのPDFを持っています.私の仕事はPDFを解析してデータをデータベースに保存することです.
質問する
3744 次
2 に答える
4
PDFには、テーブルを定義するための追加のXMLが含まれていない限り、テーブル構造要素は含まれていません。それ以外の場合、構造はありません。調べる方法について書いたブログ記事があります。
PdfBoxのようないくつかのツールはテーブルを推測する努力をしますが、それはヒットしてミスする可能性があります
于 2013-01-15T08:07:54.460 に答える
1
このコードを使用して、データを文字列形式で抽出できます。
PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
次に、Java正規表現を使用して行ごとに解析し、値をJava POJO Beanにロードできます。
于 2014-02-18T13:26:12.517 に答える