座標に基づいて PDF ドキュメントからテキストを抽出しようとしているため、Adobe PDF リファレンス(第 5.3 章)で 2 つの概念に遭遇しました。
- テキスト配置演算子
- 演算子を示すテキスト
今のところ、私は Td & Tm ポジショニング演算子に興味があります.Tdを使用している間、PDFドキュメントで明確に指定されている現在の行の開始に対して
txとtytx ty Td
があります: 、私はこの方法を使用してtxとty座標。問題は、 txとtyのみを提供しながら、その位置に基づいて PDF からテキストを抽出する方法がわからないことです。
a b c d e f Tm
これは、Tm の使用法の「公式」です。af値は何を表していますか? これはTmの私の入力になります:
BT
/F1 8.88 Tf
0 0 0 rg
0.9998 0 0 1 401.52 448.08 Tm
[<0014>-11<0015>-11<0013>-11<000F>-19<0014>-11<0019>] TJ
ET
4 つの各グループの先頭に 00 があるのはなぜですか? これは16進数ですか?16進数からintおよび対応する文字に変換する必要がありますか?
これはTdの私の入力になります:
BT 43.20 421.90 Td 0 Tw /C001 10.00 Tf 0.00 Tw <BlablablaTextInHexThatICanProcess>Tj ET
これははるかに明確で、座標はより明確です。単純な X 座標と Y 座標に基づいて、Tm に配置された PDF テキスト オブジェクトからテキストを抽出するにはどうすればよいでしょうか? 私は c++ と PoDoFo ライブラリを使用しています