PDFファイルのテキストコンテンツのXY位置を見つけるツールはありますか?
質問する
11257 次
3 に答える
5
Docotic.Pdf ライブラリがそれを可能にします。以下の C# サンプルを参照してください。
using (PdfDocument doc = new PdfDocument("your_pdf.pdf"))
{
foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData())
Console.WriteLine(textData.Position + " " + textData.Text);
}
于 2011-01-20T16:46:28.730 に答える
1
pdflib製品ファミリのテキスト抽出ツールキットであるTETは、それを行うことができます。TET にはコマンドライン インターフェイスがあり、私が知っているすべてのテキスト抽出ツールの中で最も強力です。(合字も扱えます...)
ジオメトリ
TET は、ページ上の位置、グリフの幅、テキストの方向など、テキストの正確な測定基準を提供します。ページ上の特定の領域を除外したり、テキスト抽出に含めたりすることができます。たとえば、ヘッダーとフッターまたは余白を無視します。
于 2011-01-23T02:16:55.840 に答える
1
Acrobat で「プリフライト...」を実行し、 を選択してみてくださいPDF Analysis -> List page objects, grouped by type of object
。
結果リスト内でテキスト オブジェクトを見つけると、Text Properties -> * Font
セクション内に位置の値 (ポイント単位) があることがわかります。
于 2011-01-19T20:32:41.340 に答える