次のようにpdfでテーブルの内容を抽出したい:
PDFファイルの内容を1行ずつ読み取ることができるiText Java PDFライブラリを使用してこのJavaプログラムを作成しましたが、テーブルの内容を取得する方法がわかりません
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
public class PDFReader {
public static void main(String[] args) {
// TODO, add your application code
System.out.println("Lecteur PDF");
System.out.println (ReadPDF("D:/test.pdf"));
}
private static String ReadPDF(String pdf_url)
{
StringBuilder str=new StringBuilder();
try
{
PdfReader reader = new PdfReader(pdf_url);
int n = reader.getNumberOfPages();
for(int i=1;i<n;i++)
{
String str2=PdfTextExtractor.getTextFromPage(reader, i);
str.append(str2);
System.out.println(str);
}
}catch(Exception err)
{
err.printStackTrace();
}
return String.format("%s", str);
}
}
これは私が得るものです:
しかし、それは私が望むものではありません。たとえば、各行をJava配列に保存するなど、テーブルの内容を行ごと、列ごとに抽出したい
最初の配列には、「N°」、「DATE OBSERVATIONS」、「TEXTE」が含まれます。
2 番目の配列には、「029/14」、「Le 1er sept 2014 remplace AVURNAV...」、「SETE A compter du lundi 7 juillet 2014 debuteront les trav...」が含まれます。
3 番目の配列には、「037/14」、「Le 15 octobre 2014 remplace AVURNAV ...」、「SETE Du 15 septembre 2014 au 15 juillet 2015、travaux ....」が含まれます。
等々
ありがとう