c# - PDF ドキュメントからのテーブルの抽出

Question

PDF大学のプロジェクトで C# を使用して、プログラムでドキュメント内のテーブルを抽出したいと考えています。私はよく知っていitextsharpます。

でテーブルを抽出する方法はありitextsharpますか?
この目的で使用できる他の無料のライブラリはありますか?
PDFタグを抽出するためにを XML/HTML に変換できますか? もしそうなら、 HTML 変換に<table>使用できる無料のライブラリはありますか?PDF

また

これに適した解決策を教えてください..

score 0 · Accepted Answer

このようなことを試して、VB.Net から C# に変換したこの例から必要なものを拡張できますか

public static string GetTextFromPDF(string PdfFileName)
{
    iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
    dynamic sOut = string.Empty;

    for (i = 1; i <= pdfReader.NumberOfPages; i++) {
        iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
        sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
    }
    return sOut;
}

c# - PDF ドキュメントからのテーブルの抽出

1 に答える 1

Related

Reference