問題タブ [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - PDType0Font と PDType1Fonts を pdf2dom で正常に変換するための回避策を探しています
pdf2domライブラリを使用して、大量の新聞の pdf を html に変換しています。問題の PDF の数は、1 日あたり 5,000 ページを超えています。
ほとんどのケースとシナリオでは成功しますが、ほとんどの場合、pdf を完全に変換することはできません。次のタイプのエラーを取得します-
フォント: タイプ 'PDType1Font' がサポートされていないため、Helvetica はスキップされました。
と
グリフ名の文字コードが見つかりませんでした。名前:'fraction' GlyphID:'217' グリフ名の文字コードが見つかりませんでした。名前:'fi' GlyphID:'218' グリフ名の文字コードが見つかりませんでした。名前:'fl' GlyphID:'219' グリフ名の文字コードが見つかりませんでした。名前:'breve' GlyphID:'220' グリフ名の文字コードが見つかりませんでした。名前:'dotaccent' GlyphID:'221' グリフ名の文字コードが見つかりませんでした。名前:'リング' グリフID:'222'
と
Bare CFF フォントの変換の問題、またはフォント タイプが Pdf2Dom でサポートされていない、フォント: UniversLTStd-Bold 例外: インデックス: 0、サイズ: 0 クラス java.lang.IndexOutOfBoundsException
と
フォント: タイプ 'PDType0Font' がサポートされていないため、RXKFZF+*Calibri-Bold はスキップされました。
私たちの目標は、完全なテキストと適切なフォーマット情報(サイズ/ボールド/イタリックなど)を使用してpdfをhtmlに変換することであり、フォントを無視できるため、サポートされていないタイプ1およびタイプ0を変換/置換する効果的な方法を探しています同等のフォントを持つフォント。
回避策とポインタは非常に役立ちます。