python-3.x - Camelot を使用して PDF 内のテキストを検索し、表領域を取得するにはどうすればよいですか?

Question

Camelot を使用して、PDF からテーブルデータを抽出しています。Camelot はかなりうまく機能しますが、いくつかのテーブルを含むページがあり、必要なのは 1 つだけです。そして、正規表現検索に基づいてそれを見つけたいです。

テーブル領域を指定してコードを実行すると、テーブルが見つかります。(パラメーターを指定しないと、ページ全体が 1 つのテーブルであると見なされます)。

table = camelot.read_pdf(file, flavor="stream", pages='5', table_areas=['20, 530, 550, 350'], row_tol=15)

camelot.plot(table[0], kind='contour')

青いボックスはテキストです。赤いボックスのテキストテーブルだけが気になります。

私の質問: 検索しているテキストがわかっている場合、どのように検索しておおよそのテーブル領域を取得し、それを Camelot に渡すことができますか? 正規表現 (PyMuPDF) を検索するための作業コードが既にあります。

Camelot はテキストを返すので、ボックスの座標を知る方法があると考えなければなりませんが、ここにあるドキュメントを見てもわかりません。

OpenCV ソリューションがあると確信していますが、可能であれば最初に Camelot を使用したいと考えていました。どんな助けにも感謝します。ありがとうございました。

0 に答える 0