4

ABCPdf.NETツールを使用してPDFファイルからコンテンツテキストを抽出するにはどうすればよいですか?

GetTextメソッドを試しましたが、内容が抽出されません。

var doc = new Doc();    

        var url = @".../FileName.pdf";

        doc.Read(url);

        string xmlContents = doc.GetText("Text");
        Response.Write(xmlContents);
        doc.Clear();
        doc.Dispose();

私のPDFにはほぼ1000語が含まれていますが、GetTextは4〜5語しか返しません。最初のページのテキストのみが返されることに気づきました。

したがって、質問は「PDFファイルのすべてのページからテキストを抽出する方法」である必要があります。-(タイトルを変更してわかりやすくしました)。

ありがとう、

4

3 に答える 3

10

あなたの利益のために、はい、あなた!

 public string ExtractTextsFromAllPages(string pdfFileName)
    {
        var sb = new StringBuilder();

        using (var doc = new Doc())
        {
            doc.Read(pdfFileName);

            for (var currentPageNumber = 1; currentPageNumber <= doc.PageCount; currentPageNumber++)
            {
                doc.PageNumber = currentPageNumber;
                sb.Append(doc.GetText("Text"));
            }
        }

        return sb.ToString();
    }

URLはないがバイトはある場合は、次のようにします。

public string ExtractTextsFromAllPages(Byte[] pdfBytes)
    {
        var sb = new StringBuilder();

        using (var doc = new Doc())
        {
            doc.Read(pdfBytes);

            for (var currentPageNumber = 1; currentPageNumber <= doc.PageCount; currentPageNumber++)
            {
                doc.PageNumber = currentPageNumber;
                sb.Append(doc.GetText("Text"));
            }
        }

        return sb.ToString();
    }
于 2012-06-12T13:47:26.033 に答える
1

GetTextメソッドを試しましたか?

于 2012-06-12T10:56:39.827 に答える
1
doc.Read(.......);
var textOperation = new TextOperation(doc);
textOperation.PageContents.AddPages();
string allText = textOperation.GetText();
于 2015-06-26T15:01:58.230 に答える