asp.net - 選択した領域または座標のPDFからテキストと画像を抽出します

Question

PDFファイルの特定の領域からテキストと画像を抽出するという特定の要件があります。その領域は、選択または強調表示されているか、特定の座標セットからのものである可能性があります。

私が経験したとき、すべてのアプローチは、指定された場所ではなく、PDFから画像とテキストを完全に抽出することです。私はiTextSharp、Syncfussion、Aposeを試してみましたが、これに対するより良いアプローチを見つけることができませんでした。

誰かがこれで私を助けることができればそれは素晴らしいでしょう。.netでこれを実装する方法についてのアイデアや提案を共有できますか。

よろしく、Arun.M

score 1 · Accepted Answer

このコードはPDFから画像を抽出します

using System;
using System.Data;
using System.Configuration;
using System.Collections;
using System.Drawing.Imaging;
using System.IO;
using System.Web;
using System.Web.Security;
using System.Web.UI;
using System.Web.UI.WebControls;
using System.Web.UI.WebControls.WebParts;
using System.Web.UI.HtmlControls;
using Bytescout.PDFExtractor;

namespace ExtractAllImages
{
    public partial class _Default : System.Web.UI.Page
    {
        protected void Page_Load(object sender, EventArgs e)
        {
            // This test file will be copied to the project directory on the pre-build event (see the project properties).
            String inputFile = Server.MapPath("sample1.pdf");

            // Create Bytescout.PDFExtractor.ImageExtractor instance
            ImageExtractor extractor = new ImageExtractor();
            extractor.RegistrationName = "demo";
            extractor.RegistrationKey = "demo";

            // Load sample PDF document
            extractor.LoadDocumentFromFile("sample1.pdf");

            Response.Clear();

            int i = 0;

            // Initialize image enumeration
            if (extractor.GetFirstImage())
            {
                do
                {
                    if (i == 0) // Write the fist image to the Response stream
                    {
                        string imageFileName = "image" + i + ".png";

                        Response.Write("<b>" + imageFileName + "</b>");

                        Response.ContentType = "image/png";
                        Response.AddHeader("Content-Disposition", "inline;filename=" + imageFileName);

                        // Write the image bytes into the Response output stream
                        Response.BinaryWrite(extractor.GetCurrentImageAsArrayOfBytes());
                    }

                    i++;

                } while (extractor.GetNextImage()); // Advance image enumeration
            }

            Response.End();
        }
    }
}

asp.net - 選択した領域または座標のPDFからテキストと画像を抽出します

1 に答える 1

Related

Reference