java - PDFファイルのテーブルの内容を抽出するには?

Question

次のようにpdfでテーブルの内容を抽出したい：

ここに画像の説明を入力

PDFファイルの内容を1行ずつ読み取ることができるiText Java PDFライブラリを使用してこのJavaプログラムを作成しましたが、テーブルの内容を取得する方法がわかりません

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class PDFReader {

    public static void main(String[] args) {

        // TODO, add your application code
        System.out.println("Lecteur PDF");
        System.out.println (ReadPDF("D:/test.pdf"));
    }
        private static String ReadPDF(String pdf_url)
    {
        StringBuilder str=new StringBuilder();
        try
        {

         PdfReader reader = new PdfReader(pdf_url);
        int n = reader.getNumberOfPages();
         for(int i=1;i<n;i++)
         {
            String str2=PdfTextExtractor.getTextFromPage(reader, i);
            str.append(str2);
           System.out.println(str);
         }
        }catch(Exception err)
        {
            err.printStackTrace();
        }
        return String.format("%s", str);
    }
}

これは私が得るものです:

ここに画像の説明を入力

しかし、それは私が望むものではありません。たとえば、各行をJava配列に保存するなど、テーブルの内容を行ごと、列ごとに抽出したい

最初の配列には、「N°」、「DATE OBSERVATIONS」、「TEXTE」が含まれます。

2 番目の配列には、「029/14」、「Le 1er sept 2014 remplace AVURNAV...」、「SETE A compter du lundi 7 juillet 2014 debuteront les trav...」が含まれます。

3 番目の配列には、「037/14」、「Le 15 octobre 2014 remplace AVURNAV ...」、「SETE Du 15 septembre 2014 au 15 juillet 2015、travaux ....」が含まれます。

等々

ありがとう

java - PDFファイルのテーブルの内容を抽出するには?

1 に答える 1

Related

Reference