タグ付きバージョン(tagged.pdf)を作成するソースpdf(untagged.pdf)があります
ソースpdfのすべてのコンテンツのすべてのhtmlタグの情報があります。
3ページ目に図があります。プログラムで解析すると、これは画像として検出されませんが、これはいくつかのテキストを含む長方形と、以下のような別の長方形です。
_____________________ ____________________
| Some text inside | ----> | Some other text |
| | ----> | Inside |
|_____________________| ----> |____________________|
Fig 1.x Rectangle 1 to Rectangle 2
他のいくつかの手法を使用して、これが図と同じ境界座標であることを検出しました。境界座標が[10、30]と[100、60]であるとしましょう。全体を図としてタグ付けしたい(以下のように)
_____________________________________________________________(100, 60)
| |
| _____________________ ____________________ |
| | Some text inside | ----> | Some other text | |
| | | ----> | Inside | |
| |_____________________| ----> |____________________| |
| |
| Fig 1.x Rectangle 1 to Rectangle 2 |
|_____________________________________________________________|
(10, 30)
ここで、このセクション全体を画像としてタグ付けしたいと思います。itextpdf や pdfbox などのライブラリを確認しました。座標を使用して図にタグを付ける API はありません。
言い換えれば、要素(画像のグループ)をプログラムで図としてタグ付けする方法はありますか。