.NET で PDF ドキュメントからテキストを抽出するにはどうすればよいですか? また、ページ上の各単語の座標を取得するにはどうすればよいですか? iTextSharpやその他のコンポーネントでこれを行うことはできますか?
2 に答える
0
このタスクは、Docotic.Pdf ライブラリを使用して簡単に実行できます。
以下は、すべての単語を座標とともにシステム コンソールに書き込み、見つかった各単語の周りに四角形を描画するコードです。
public static void extractAndDrawWordBounds(string inputFileName, string outputFileName)
{
using (PdfDocument pdf = new PdfDocument(inputFileName))
{
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
System.Console.WriteLine(data.ToString());
page.Canvas.DrawRectangle(data.Bounds);
}
pdf.Save(outputFileName);
}
System.Diagnostics.Process.Start(outputFileName);
}
それ以外に、ライブラリは書式設定されたテキスト ( PdfPage.GetTextWithFormattingメソッド) または個々の文字 ( PdfPage.GetCharsメソッド)を抽出できます。
免責事項: 私はライブラリの開発者の 1 人です。
于 2013-08-13T14:59:20.573 に答える