java - iText javaを使用してPDFの表を読み取る方法は?

Question

iText Java ライブラリを使用して PDF ファイルのテーブルを読みたいと思います。どうやって進める？

score 7 · Accepted Answer

コンテンツストリームからテキストを抽出できますが、通常の PDF の場合、結果はプレーンテキスト (構造なし) になります。ページに表がある場合、その表はそのように認識されません。コンテンツと空白が表示されますが、それは表形式の構造ではありません! タグ付き PDF がある場合にのみ、XML ファイルを取得できます。PDF に表タグとして認識されるタグが含まれている場合、これは PDF に反映されます。

ここでわかったこと

score -3 · Accepted Answer

私の解決策

package com.geek.tutorial.itext.table;
import java.io.FileOutputStream;
import com.lowagie.text.pdf.PdfPTable;
import com.lowagie.text.pdf.PdfPCell;
import com.lowagie.text.pdf.PdfWriter;
import com.lowagie.text.Document;
import com.lowagie.text.Paragraph;

public class SimplePDFTable
{
    public SimplePDFTable() throws Exception
    {
        Document document = new Document();
        PdfWriter.getInstance(document, 
            new FileOutputStream("SimplePDFTable.pdf"));
        document.open();
        PdfPTable table = new PdfPTable(2); // Code 1
        // Code 2
        table.addCell("1");
        table.addCell("2");
        // Code 3
        table.addCell("3");
        table.addCell("4");
        // Code 4
        table.addCell("5");
        table.addCell("6");
        // Code 5
        document.add(table);        
        document.close();
    }

    public static void main(String[] args)
    {    
        try
        {
            SimplePDFTable pdfTable = new SimplePDFTable();
        }
        catch(Exception e)
        {
            System.out.println(e);
        }
    }
}

java - iText javaを使用してPDFの表を読み取る方法は?

3 に答える 3

Related

Reference