PDFBoxなどのツールを使用してPDFファイル(テキスト、ストローク、グリフ、画像を含む)を解釈し、ストリームや辞書にアクセスできます。これらのコンポーネントがどのようにリンクし、どのように解釈するのかがわかりません。特に、ストリームからフォントにアクセスする方法を知りたいです。
注:PDFドキュメントの作成方法に関するチュートリアルには興味がありません
Planetpdf.com には多くの優れた記事があり、多くの PDF 開発者が有用な一般的な記事でブログを運営しています。私たちは、ブログ (http://www.jpedal.org/PDFblog/) で全負荷を実行しました。
おそらく、PDF リファレンスを読むことから始める必要があります。巨大なファイルですが、関連する部分だけを読み取ることができます。
フォント ストリームを理解するには、基本的にTrueTypeおよびType1フォント フォーマットについて読む必要があります (これも簡単には読めません)。PDF には他のフォント タイプが含まれている場合がありますが、TrueType と Type1 がおそらく最も広く使用されています。
フォントをいじるのは複雑な場合があるため、一部のフォント ライブラリをFreeTypeとして使用して PDF フォント ストリームから情報を抽出する方が簡単であることがわかるでしょう。