6

PDFファイルのテキストコンテンツのXY位置を見つけるツールはありますか?

4

3 に答える 3

5

Docotic.Pdf ライブラリがそれを可能にします。以下の C# サンプルを参照してください。

using (PdfDocument doc = new PdfDocument("your_pdf.pdf"))
{
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData())
        Console.WriteLine(textData.Position + " " + textData.Text);
}
于 2011-01-20T16:46:28.730 に答える
1

pdflib製品ファミリのテキスト抽出ツールキットであるTETは、それを行うことができます。TET にはコマンドライン インターフェイスがあり、私が知っているすべてのテキスト抽出ツールの中で最も強力です。(合字も扱えます...)

ジオメトリ
TET は、ページ上の位置、グリフの幅、テキストの方向など、テキストの正確な測定基準を提供します。ページ上の特定の領域を除外したり、テキスト抽出に含めたりすることができます。たとえば、ヘッダーとフッターまたは余白を無視します。

于 2011-01-23T02:16:55.840 に答える
1

Acrobat で「プリフライト...」を実行し、 を選択してみてくださいPDF Analysis -> List page objects, grouped by type of object

結果リスト内でテキスト オブジェクトを見つけると、Text Properties -> * Fontセクション内に位置の値 (ポイント単位) があることがわかります。

于 2011-01-19T20:32:41.340 に答える