2

PDF大学のプロジェクトで C# を使用して、プログラムでドキュメント内のテーブルを抽出したいと考えています。私はよく知っていitextsharpます。

  1. でテーブルを抽出する方法はありitextsharpますか?

  2. この目的で使用できる他の無料のライブラリはありますか?

  3. PDFタグを抽出するために を XML/HTML に変換できますか? もしそうなら、 HTML 変換に<table>使用できる無料のライブラリはありますか?PDF

    また

これに適した解決策を教えてください..

4

1 に答える 1

0

このようなことを試して、VB.Net から C# に変換したこの例から必要なものを拡張できますか

public static string GetTextFromPDF(string PdfFileName)
{
    iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
    dynamic sOut = string.Empty;

    for (i = 1; i <= pdfReader.NumberOfPages; i++) {
        iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
        sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
    }
    return sOut;
}
于 2014-08-20T16:29:06.310 に答える