1

タグ付きバージョン(tagged.pdf)を作成するソースpdf(untagged.pdf)があります

ソースpdfのすべてのコンテンツのすべてのhtmlタグの情報があります。

3ページ目に図があります。プログラムで解析すると、これは画像として検出されませんが、これはいくつかのテキストを含む長方形と、以下のような別の長方形です。

    _____________________         ____________________
   |    Some text inside | ----> |   Some other text  |
   |                     | ----> |            Inside  |
   |_____________________| ----> |____________________|

             Fig 1.x Rectangle 1 to Rectangle 2

他のいくつかの手法を使用して、これが図と同じ境界座標であることを検出しました。境界座標が[10、30]と[100、60]であるとしましょう。全体を図としてタグ付けしたい(以下のように)

   _____________________________________________________________(100, 60)
  |                                                             |
  |      _____________________         ____________________     |
  |     |    Some text inside | ----> |   Some other text  |    |
  |     |                     | ----> |            Inside  |    |
  |     |_____________________| ----> |____________________|    |
  |                                                             |
  |           Fig 1.x Rectangle 1 to Rectangle 2                |
  |_____________________________________________________________|
  (10, 30)

ここで、このセクション全体を画像としてタグ付けしたいと思います。itextpdf や pdfbox などのライブラリを確認しました。座標を使用して図にタグを付ける API はありません。

言い換えれば、要素(画像のグループ)をプログラムで図としてタグ付けする方法はありますか。

4

0 に答える 0