1

アラビア語などの右から左への言語のテキスト方向は、PDF でどのようにエンコードされますか? 私の理解では、PDF は基本的にグラフィカルな形式であるため、テキスト方向の概念を実際にエンコードする必要はありません。むしろ、グリフは画面上で右から左にペイントするだけで済みます。ただし、PDF リファレンス マニュアルには、WritingMode左から右、右から左、上から下、下から上という組み合わせを指定できる という属性が記載されています。

だから私の質問は:

(1) 私の理解が正しく、RTL または LTR が画面上でのグリフの描画方法によって単に表現されている場合、WritingMode属性のポイントは何ですか?

(2) グリフが描画される順序以外に、PDF ファイルにエンコードされた実際の方向性情報がない場合、PDF-to-Text プログラムは、特定の行が右から左に読み取られるべきか、または右から左に読み取られるべきかをどのように認識しますか?左から右へ?(PDF プログラムは、ToUnicodeマップから抽出された Unicode コードポイントが RTL 言語に対応する範囲に収まるかどうかをチェックするだけでよいと思います。)

4

2 に答える 2

0

テキストの方向はTrmで設定されます

于 2012-02-02T07:39:45.210 に答える
0

仕様を正しく読んでいる場合、WritingModeはタグ付きPDF専用です。PDF に適切な論理構造が含まれていない場合、WritingMode は取得されません。

私が理解しているように、一般的な答えは「場合による」です。RL の記述では、おそらくテキスト アドバンス情報がフォントにエンコードされており、1 つのテキスト配置でテキストが正しい場所に進められます。私が「おそらく」と言ったのは、実際の生成ソフトウェアがこれを無視し、フォント内のテキストの進行に関係なく、各グリフを独自に配置する可能性があるためです。次に、厳密には RL ではないアラビア語やヘブライ語などの楽しい言語を取得します。これは、数字が RL 行内の LR であるためです。

于 2012-02-01T20:52:06.850 に答える