c# - ABCPdf.NETを使用してPDFファイルのすべてのページからテキストを抽出するにはどうすればよいですか？

Question

ABCPdf.NETツールを使用してPDFファイルからコンテンツテキストを抽出するにはどうすればよいですか？

GetTextメソッドを試しましたが、内容が抽出されません。

var doc = new Doc();    

        var url = @".../FileName.pdf";

        doc.Read(url);

        string xmlContents = doc.GetText("Text");
        Response.Write(xmlContents);
        doc.Clear();
        doc.Dispose();

私のPDFにはほぼ1000語が含まれていますが、GetTextは4〜5語しか返しません。最初のページのテキストのみが返されることに気づきました。

したがって、質問は「PDFファイルのすべてのページからテキストを抽出する方法」である必要があります。-（タイトルを変更してわかりやすくしました）。

ありがとう、

score 10 · Accepted Answer

あなたの利益のために、はい、あなた！

 public string ExtractTextsFromAllPages(string pdfFileName)
    {
        var sb = new StringBuilder();

        using (var doc = new Doc())
        {
            doc.Read(pdfFileName);

            for (var currentPageNumber = 1; currentPageNumber <= doc.PageCount; currentPageNumber++)
            {
                doc.PageNumber = currentPageNumber;
                sb.Append(doc.GetText("Text"));
            }
        }

        return sb.ToString();
    }

URLはないがバイトはある場合は、次のようにします。

public string ExtractTextsFromAllPages(Byte[] pdfBytes)
    {
        var sb = new StringBuilder();

        using (var doc = new Doc())
        {
            doc.Read(pdfBytes);

            for (var currentPageNumber = 1; currentPageNumber <= doc.PageCount; currentPageNumber++)
            {
                doc.PageNumber = currentPageNumber;
                sb.Append(doc.GetText("Text"));
            }
        }

        return sb.ToString();
    }

score 1 · Accepted Answer

1

GetTextメソッドを試しましたか？

于 2012-06-12T10:56:39.827 に答える

score 1 · Accepted Answer

doc.Read(.......);
var textOperation = new TextOperation(doc);
textOperation.PageContents.AddPages();
string allText = textOperation.GetText();

c# - ABCPdf.NETを使用してPDFファイルのすべてのページからテキストを抽出するにはどうすればよいですか？

3 に答える 3

Related

Reference