-1

.NET で PDF ドキュメントからテキストを抽出するにはどうすればよいですか? また、ページ上の各単語の座標を取得するにはどうすればよいですか? iTextSharpやその他のコンポーネントでこれを行うことはできますか?

4

2 に答える 2

0

このタスクは、Docotic.Pdf ライブラリを使用して簡単に実行できます。

以下は、すべての単語を座標とともにシステム コンソールに書き込み、見​​つかった各単語の周りに四角形を描画するコードです。

public static void extractAndDrawWordBounds(string inputFileName, string outputFileName)
{
    using (PdfDocument pdf = new PdfDocument(inputFileName))
    {
        PdfPage page = pdf.Pages[0];
        foreach (PdfTextData data in page.GetWords())
        {
            System.Console.WriteLine(data.ToString());
            page.Canvas.DrawRectangle(data.Bounds);
        }

        pdf.Save(outputFileName);
    }

    System.Diagnostics.Process.Start(outputFileName);
}

それ以外に、ライブラリは書式設定されたテキスト ( PdfPage.GetTextWithFormattingメソッド) または個々の文字 ( PdfPage.GetCharsメソッド)を抽出できます。

免責事項: 私はライブラリの開発者の 1 人です。

于 2013-08-13T14:59:20.573 に答える