いくつかの重要な情報を抽出するために、いくつかの pdf ファイルを解析しようとしています。これらの情報の一部を含む各 pdf には、いくつかのテーブルがあります。そこで、キャメロットを使用してテーブルを抽出しようとしましたが、良い結果が得られましたが、各テーブルのタイトルをマッピングしたいので、各テーブルのタイトルを抽出したいと思います。そこで、次のように、各テーブルの座標を取得してtables[i]._bbox
から、これらの座標にマージンを追加して、テーブルのタイトルの領域を検出しようとしました (テーブルの上部、左側、または下部にある可能性があります)。画像中 :左側の表のタイトル
Pythonを使用してテーブル座標に基づいてpdfからテーブルのタイトルを含む赤い領域の座標を取得する方法を教えてもらえますか?