pdf - Identity-H でエンコードされた文字の ASCII または Unicode 文字へのマッピングはどこでできますか?

翻译自：https://stackoverflow.com/questions/17193839 2013-06-19T14:23:59.573

18780 次

サードパーティによって生成された PDF があります。私はそれからテキストを取得しようとしていますが、pdf2textコピーして貼り付けても読み取り可能なテキストにはなりません。出力 (2 つのうちのいずれか) を少し掘り下げた後、画面上の各文字が 3 バイトで構成されていることがわかりました。たとえば、「A」はef、81、およびのバイト81です。PDF のメタデータを見ると、Identity-H でエンコードされていると主張されているため、表示されているのは Identity-H でエンコードされた一連の文字であると思います。既に持っているドキュメントに基づいて部分的なマッピングを行っていますが、より完全なマッピングを作成したいと考えています。そのためには、Identity-H 用の ASCII テーブルのようなものが必要です。

pdf - Identity-H でエンコードされた文字の ASCII または Unicode 文字へのマッピングはどこでできますか?

1 に答える 1

Related

Reference