アラビア語などの右から左への言語のテキスト方向は、PDF でどのようにエンコードされますか? 私の理解では、PDF は基本的にグラフィカルな形式であるため、テキスト方向の概念を実際にエンコードする必要はありません。むしろ、グリフは画面上で右から左にペイントするだけで済みます。ただし、PDF リファレンス マニュアルには、WritingMode
左から右、右から左、上から下、下から上という組み合わせを指定できる という属性が記載されています。
だから私の質問は:
(1) 私の理解が正しく、RTL または LTR が画面上でのグリフの描画方法によって単に表現されている場合、WritingMode
属性のポイントは何ですか?
(2) グリフが描画される順序以外に、PDF ファイルにエンコードされた実際の方向性情報がない場合、PDF-to-Text プログラムは、特定の行が右から左に読み取られるべきか、または右から左に読み取られるべきかをどのように認識しますか?左から右へ?(PDF プログラムは、ToUnicode
マップから抽出された Unicode コードポイントが RTL 言語に対応する範囲に収まるかどうかをチェックするだけでよいと思います。)