PDF がタグ付けされているかどうかはどうすればわかりますか? PDFファイル内のテキストをコピーしてアプリに表示するプログラムを開発しているので、PDFファイルをテストしようとしました.PDFファイルから表をコピーし(通常のコピー+貼り付け)、MSに貼り付けました語。結果は、表のない通常のテキストでした。PDF ファイルから表をコピーして Word に貼り付けると、表が画像になるという問題がいくつかあります。本当?
2 に答える
PDFがタグ付けされているかどうかを判断する方法は?
ファイルの処理に使用しているライブラリによっては、辞書MarkInfo
からエントリを取得しようとする場合があります。Catalog
PDF仕様から:
表3.25カタログディクショナリのエントリ
キー: MarkInfo
タイプ:ディクショナリ値
:(オプション; PDF 1.4)タグ付きPDF規則のドキュメントの使用に関する情報を含むマーク情報ディクショナリ(セクション10.6「論理構造」を参照)。
ただし、このプロパティの値がTRUEに設定されている場合でも、タグが実際に存在することを意味するわけではなく、存在する場合は、テーブルの抽出にまったく役立たない可能性があります。段落や画像のマーキングにのみタグを使用するテーブルを含むPDFファイルを引き続き見つけることができます。
簡単に言うと、アプリケーションが消費するファイルを生成して、検索するタグを把握できるようにしない限り、「PDFからのテーブルの抽出」にこれらのタグを使用することはお勧めできません。
これに答えていると思われる別の質問へのコメントを見つけました。
コンテンツ ストリームからテキストを抽出できますが、通常の PDF の場合、結果はプレーン テキスト (構造なし) になります。ページに表がある場合、その表はそのように認識されません。コンテンツと空白が表示されますが、それは表形式の構造ではありません! タグ付き PDF がある場合にのみ、XML ファイルを取得できます。PDF に表タグとして認識されるタグが含まれている場合、これは PDF に反映されます。