問題タブ [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - poppler によって生成された XML の座標を使用して電子メール テンプレートを作成する
このPDFからズーム 1 で72 dpi の画像とXMLを生成しました。
DPI は 72 でしたが、XML の座標をピクセルに変換できるようにするには、このシートを使用して DPI を繰り返し微調整する必要がありました。90.5はうまくいくようです。ただし、これは適切な方法のようには見えません。
XML を生成するコマンド:
pdftohtml -xml -zoom 1 -fontfullname -s -c input.pdf output
イメージを生成するコマンド:
pdftoppm -jpeg -r 72 input.pdf output
注: 72 dpi では、出力される画像が PDF および XML 出力と同様の寸法であったため、画像の生成時に 72 dpi が使用されました。
これにより HTML の構築が可能になるため、この変換は不可欠です。poppler 自体が HTML を生成できることは承知していますが、生成された HTML は電子メール互換にする必要があるため、XML を使用して HTML をゼロから構築しています。
XML の座標から PDF への変換をより確実に行うには、どのような方法がありますか?
pdf-to-html - PDFtoHTML 合字とエンティティ
popper pdftohtml
HTMLファイルを使用して正常に生成しました。しかし、以下の点を解決する方法がわかりません。
コマンドプロンプトで使用:
pdftohtml -c -s -enc Latin2 Sample.pdf
- エンティティには、UTF 文字の代わりに
named entity format
likeが必要です。Ū
Ü
- 合字の問題
selfl essness
はselflessness
. - 句読点の余分なスペースを削除します。
Pdftohtml の21.04.0
バージョンWindows-10
。上記の点を解決するには?