pdf - 単一のCIDは複数のUnicodeエンコーディングを参照しています

Question

pdfファイルを解析しているときに、事前定義されたCMap（UniCNS-UTF16-H、ここで見つけることができますhttp://sourceforge.net/projects/cmap.adobe/files/cmapresources_cns1-6.tar.z/download）に遭遇します。調べてみると、単一のCIDを複数のUnicodeで参照できることがわかりました。

私の質問は、これの目的は何ですか？キャラクターをどのユニコードにマップする必要があるかをどのように知ることができますか？

cid2code.txtファイルのヘッダーには、「単一のCIDが単一のCMapファイル内の複数のエンコードポイントで参照されている場合があります。これらの場合は、同じ列内でコンマで区切られています。」しかし、それは理由を述べていません。

テクニカルノート＃5080「CIDキーフォント用のAdobe-CNS1-6文字コレクション」を調べましたが、答えが見つかりませんでした。ですから、誰かが私にこれが説明されている箇所とそれに対処する方法を教えてくれれば、私は大いに感謝されます。

score 1 · Accepted Answer

Unicode自体に重複する文字があります。これらの重複は、明らかに同じグリフにマップされる必要があります。

編集：あなたはまた、vの接尾辞が付いたコードポイントを持つ垂直/水平の同等物を持っているようです例：FE30（VERTICAL TWO DOT）および2025v（TWO DOT LEADER）

EDIT2：technote5094から引用

香港政府はまた、香港GCCSに存在していた84組の重複した文字を特定しました。このアプローチは、各ペアの1つのインスタンス（通常は2番目以降の外観）を以前に存在していたキャラクターと「統合」するために選択されました。以前は消えていた「統一された」文字で占められていたコードポイントは、下位互換性のために予約されたままです。この場合も、「統合」ペアの2つの文字を表すために使用されるCIDは、下位互換性のために、文字コレクションAdobe-CNS1に残ります。

score 1 · Accepted Answer

CID仕様で複数のCMapコードのマッピングが許可されている理由を明示的に示している詳細な箇所があるかどうかはわかりませんが、実際にそうなっています。おそらく、CIDフォントの設計と使用についてもう少し知っていると、この方法の潜在的な有用性を理解するのに役立つかもしれません。CID仕様を一読することをお勧めします。

基本的に、CIDは、1つまたは複数のコードをこれらの形状のいずれかに任意に関連付けることができるCMapメカニズムを備えた、グリフ形状のコレクションとして設計されました。それらのCID自体は単なるグリフであり、Unicodeではありません。CMapは、グリフデータを変更せずにマッピングを簡単に更新および追加できるように、CIDフォントデータから切断するように意図的に設計されています。したがって、たとえば、Japan1-6の順序のCIDフォントには、図形のコレクション用に多数のマッピング（CMaps）を含めることができ、選択できるものは多数あります（特に日本語の場合）。また、必要に応じて独自のマッピングを考案することもできます... CMapパーツを配布し、問題の順序に適合することを確認する必要があります。

いずれにせよ、なぜこれが可能であるかは問題ではありません。それは可能であり、それがそれです。したがって、CIDやCMapを処理するものを開発している場合は、そのケースを処理する準備をする必要があります。それは起こる可能性があり、実際に起こります。それに対処する準備ができていないと、コードは最終的に壊れてしまいます。

ちなみに、CIDフォーマットはこの点でユニークではありません。OpenType（TrueType）でも同じことを行うのが一般的であり、他のフォント形式でも同様です。

pdf - 単一のCIDは複数のUnicodeエンコーディングを参照しています

2 に答える 2

Related

Reference