問題タブ [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
46 参照

pdf - poppler によって生成された XML の座標を使用して電子メール テンプレートを作成する

このPDFからズーム 1 で72 dpi の画像XMLを生成しました。

DPI は 72 でしたが、XML の座標をピクセルに変換できるようにするには、このシートを使用して DPI を繰り返し微調整する必要がありました。90.5はうまくいくようです。ただし、これは適切な方法のようには見えません。

XML を生成するコマンド: pdftohtml -xml -zoom 1 -fontfullname -s -c input.pdf output

イメージを生成するコマンド: pdftoppm -jpeg -r 72 input.pdf output

注: 72 dpi では、出力される画像が PDF および XML 出力と同様の寸法であったため、画像の生成時に 72 dpi が使用されました。

これにより HTML の構築が可能になるため、この変換は不可欠です。poppler 自体が HTML を生成できることは承知していますが、生成された HTML は電子メール互換にする必要があるため、XML を使用して HTML をゼロから構築しています。

XML の座標から PDF への変換をより確実に行うには、どのような方法がありますか?

0 投票する
0 に答える
18 参照

pdf-to-html - PDFtoHTML 合字とエンティティ

popper pdftohtmlHTMLファイルを使用して正常に生成しました。しかし、以下の点を解決する方法がわかりません。

コマンドプロンプトで使用:

pdftohtml -c -s -enc Latin2 Sample.pdf

  1. エンティティには、UTF 文字の代わりにnamed entity formatlikeが必要です。ŪÜ
  2. 合字の問題selfl essnessselflessness.
  3. 句読点の余分なスペースを削除します。

Pdftohtml の21.04.0バージョンWindows-10。上記の点を解決するには?