popper pdftohtml
HTMLファイルを使用して正常に生成しました。しかし、以下の点を解決する方法がわかりません。
コマンドプロンプトで使用:
pdftohtml -c -s -enc Latin2 Sample.pdf
- エンティティには、UTF 文字の代わりに
named entity format
likeが必要です。Ū
Ü
- 合字の問題
selfl essness
はselflessness
. - 句読点の余分なスペースを削除します。
Pdftohtml の21.04.0
バージョンWindows-10
。上記の点を解決するには?