3

特定のフォント/フォントサイズ/フォントカラーなどに関するPDFファイルからテキストを抽出することはできますか? 私は Perl、python、または *nix コマンドライン ユーティリティを好みます。私の目標は、PDF ファイルからすべての見出しを抽出して、1 つの PDF に含まれる記事の優れたインデックスを作成することです。

4

2 に答える 2

3

テキストと /font/font size/position (私がチェックしたように色なし) は、Ghostscript の txtwrite デバイス (-dTextFormat=0 | 1 オプションを試してください)、および -tt オプションを使用した Mudraw の (MuPDF) から取得できます。次に、XML に似た出力を Perl などで解析します。

于 2013-10-16T08:38:31.607 に答える