1

Camelot を使用して、PDF からテーブル データを抽出しています。Camelot はかなりうまく機能しますが、いくつかのテーブルを含むページがあり、必要なのは 1 つだけです。そして、正規表現検索に基づいてそれを見つけたいです。

テーブル領域を指定してコードを実行すると、テーブルが見つかります。(パラメーターを指定しないと、ページ全体が 1 つのテーブルであると見なされます)。

table = camelot.read_pdf(file, flavor="stream", pages='5', table_areas=['20, 530, 550, 350'], row_tol=15)

camelot.plot(table[0], kind='contour')

青いボックスはテキストです。赤いボックスのテキスト テーブルだけが気になります。

ここに画像の説明を入力

私の質問: 検索しているテキストがわかっている場合、どのように検索しておおよそのテーブル領域を取得し、それを Camelot に渡すことができますか? 正規表現 (PyMuPDF) を検索するための作業コードが既にあります。

Camelot はテキストを返すので、ボックスの座標を知る方法があると考えなければなりませんが、ここにあるドキュメントを見てもわかりません。

https://camelot-py.readthedocs.io/en/master/api.html#lower-level-classes

OpenCV ソリューションがあると確信していますが、可能であれば最初に Camelot を使用したいと考えていました。どんな助けにも感謝します。ありがとうございました。

4

0 に答える 0