pdfbox - PdfBox を使用して PDF に埋め込まれた文字を検出する

翻译自：https://stackoverflow.com/questions/15492913 2013-03-19T06:30:37.003

261 次

PdfBox を使用して PDF ファイルからテキストを抽出しています。PDF に埋め込みフォントが含まれていない場合、すべて正常に動作します。この問題は、TrueType 埋め込みフォントがいくつかある場合に発生します。同じケースで、埋め込みフォントがデフォルトの文字の形状を他の形状に置き換えることを発見しました。たとえば、'ï' の char コードは、'ł' をエンコードするために使用されます。マッピングや OCR を使用しないと、キャラクターの実際の形状を取得できないことは承知しています。埋め込み文字によって再定義される可能性のある文字を知りたいです。私の質問は、PDF ストリーム内のどの文字が埋め込みフォントによって定義されているかを知るにはどうすればよいですか?

pdfbox - PdfBox を使用して PDF に埋め込まれた文字を検出する

0 に答える 0

Related

Reference