問題タブ [xpdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
image - pdfbox はベクター画像を抽出できますか?
私の理解によると、
私は最初のものについてはほぼ確信していますが、2番目については確信が持てません。間違っている場合は修正してください。
この 2 つのことを前提として、latex ファイル (.eps 画像が挿入されている場所) または word ファイル (ベクター画像を含む) を pdf に変換すると、画像はラスター画像に変換されますか?
また、ベクトル画像ではなく、pdfからラスター画像のみを抽出できると思いますPDFBox
(xpdf
として埋め込まれているため)。XObjects
その理解は正しいですか?stackoverflow のこの質問は関連していますが、まだ回答がありません。
pdf - 段落境界を理解するためのPDFコンテンツストリームの解析
PDFコンテンツストリームを解析して段落境界を識別する方法はありますか? ISO 32000-1:2008 を読みましたが、pdf コンテンツ ストリームに、表示ソフトウェアに段落の開始または終了を指示する演算子が含まれているかどうかを理解できませんでした。テキスト抽出ソフトウェアは、その情報を気に入っpdfbox
たりxpdf
提供したりできますか?
pdf - どのクリップ パスがパスに適用されるか、または PDF ベクター グラフィックスを塗りつぶすかを特定する方法を教えてください。
PDF ファイルからベクター グラフィックスを抽出し、対応する SVG ファイルを作成しようとしています。この目的のために、xpdf ライブラリでSVGOutputDev ( https://github.com/immateriel/pdf2svg/blob/master/SVGOutputDev.cc ) を使用しています。現在、SVGOutputDev はクリップ パス抽出を実装していません。同じ実装を試みています。クリップ パス定義自体を抽出することはできますが、これらの定義のどれが通常のストロークまたは塗りつぶし領域に適用されるかを判断できません。たとえば、http://pastebin.com/jTdzv3YZを参照してください。PDFのページから抽出したSVGと、抽出中に見られる一連のPDFグラフィックコマンドの対応するダンプ。その SVG からわかるように、複数のクリップ パスと 1 つの四角形の塗りつぶし領域があります。塗りつぶされた四角形が定義される前に複数のクリップ パスが定義されていても、直前に定義された円形のクリップ パスのみ四角形の定義は、四角形に関連付けられていることが期待されます (さまざまな PDF リーダーで PDF ページがどのようにレンダリングされたかによって、白の背景に黒く塗りつぶされた円が 2 つだけ表示されます)。問題は、どのクリップ パスが PDF で定義された通常の塗りつぶし/ストローク領域に関連付けられているかをどのように知るかということです。参考までに、PDF 仕様書の関連セクションを調べましたが、あまり明確ではありませんでした (「クリッピング パス操作は、最後のパス構築演算子の後、パス オブジェクトを終了するパス描画演算子の前に表示される場合があります。ただし、クリッピング パス オペレータはペイント オペレータの前に表示されますが、表示された時点でクリッピング パスを変更するのではなく、後続のペイント オペレータの効果を変更します。
pdf - PDF クロップボックスと PDF ページから作成された SVG の不一致
PDFページの背景画像をSVGに抽出しようとしています(xpdfライブラリを使用)。私が直面している問題は、PDF リーダーによってレンダリングされない追加の画像/グラフィック (おそらくcropboxの外側) が PDF に含まれているが、対応する SVG にこれらの画像/グラフィックが含まれていることです。SVGのviewBox属性をcropBoxに対応するように設定してみましたその PDF ページの境界はありませんが、結果の SVG には、PDF によってレンダリングされないグラフィック オブジェクトがいくつか表示されます。また、SVG にクリップ パスを追加しようとしました - 長方形のクリッピング領域 (PDF のクロップボックスに対応する境界を持つ) ですが、これも PDF に見られない追加のグラフィック要素の一部を排除しませんでした。何が問題になる可能性がありますか?PDFクロップボックスをSVGに引き継ぐ正しい方法は何ですか? ところで、上記の両方のケース (viewbox とクリッピング領域のアプローチ) で生成された SVG は、PDF ページの表示可能領域の寸法にかなり近く、追加の要素は端の近くにしか見えませんでした。PDF から取得したクロップボックスの寸法を SVG で直接使用してはならないということですか?
pdf - すべてのpdfをテキストに変換するバッチファイル(xpdf付き)
PDFファイルがいっぱいのフォルダでバッチ変換を実行したいと思います。xPDF を使用していますが、これは単一ファイルのコマンド プロンプトです。
c:\Test\pdftotext -レイアウト firstpdftoconvert.pdf firstpdfconverted.txt
誰かがバッチファイルを使用して一度に(すべてのpdfファイルのみを変換して)それを行うのを手伝ってくれませんか?前もって感謝します!
php - コピーまたはxpdfでpdfの奇妙な文字
Linuxサーバーでxpdf(phpを使用)を使用してpdfファイルから情報を抽出しています
一部のファイルではすべて問題ありません
しかし、他のいくつかでは、抽出されたテキストは非常に奇妙です!
Acrobat Reader で PDF を見ると、通常のテキストが表示されます
しかし、抽出すると、たとえば次のようになります。
また、コンピューターの Windows 8.1 で PDF からメモ帳またはメモ帳 ++ にコピー アンド ペーストすると、これらの奇妙な文字が表示されます。
何か助けてください。よろしく