.net - PDFからテキストと単語の座標を抽出するには?

Question

.NET で PDF ドキュメントからテキストを抽出するにはどうすればよいですか? また、ページ上の各単語の座標を取得するにはどうすればよいですか? iTextSharpやその他のコンポーネントでこれを行うことはできますか?

score 0 · Accepted Answer

このタスクは、Docotic.Pdf ライブラリを使用して簡単に実行できます。

以下は、すべての単語を座標とともにシステムコンソールに書き込み、見つかった各単語の周りに四角形を描画するコードです。

public static void extractAndDrawWordBounds(string inputFileName, string outputFileName)
{
    using (PdfDocument pdf = new PdfDocument(inputFileName))
    {
        PdfPage page = pdf.Pages[0];
        foreach (PdfTextData data in page.GetWords())
        {
            System.Console.WriteLine(data.ToString());
            page.Canvas.DrawRectangle(data.Bounds);
        }

        pdf.Save(outputFileName);
    }

    System.Diagnostics.Process.Start(outputFileName);
}

それ以外に、ライブラリは書式設定されたテキスト ( PdfPage.GetTextWithFormattingメソッド) または個々の文字 ( PdfPage.GetCharsメソッド)を抽出できます。

免責事項: 私はライブラリの開発者の 1 人です。

.net - PDFからテキストと単語の座標を抽出するには?

2 に答える 2

Related

Reference