サードパーティによって生成された PDF があります。私はそれからテキストを取得しようとしていますが、pdf2text
コピーして貼り付けても読み取り可能なテキストにはなりません。出力 (2 つのうちのいずれか) を少し掘り下げた後、画面上の各文字が 3 バイトで構成されていることがわかりました。たとえば、「A」はef
、81
、およびのバイト81
です。PDF のメタデータを見ると、Identity-H でエンコードされていると主張されているため、表示されているのは Identity-H でエンコードされた一連の文字であると思います。既に持っているドキュメントに基づいて部分的なマッピングを行っていますが、より完全なマッピングを作成したいと考えています。そのためには、Identity-H 用の ASCII テーブルのようなものが必要です。
18780 次