問題タブ [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
225 参照

python-3.x - Camelot を使用して PDF 内のテキストを検索し、表領域を取得するにはどうすればよいですか?

Camelot を使用して、PDF からテーブル データを抽出しています。Camelot はかなりうまく機能しますが、いくつかのテーブルを含むページがあり、必要なのは 1 つだけです。そして、正規表現検索に基づいてそれを見つけたいです。

テーブル領域を指定してコードを実行すると、テーブルが見つかります。(パラメーターを指定しないと、ページ全体が 1 つのテーブルであると見なされます)。

青いボックスはテキストです。赤いボックスのテキスト テーブルだけが気になります。

ここに画像の説明を入力

私の質問: 検索しているテキストがわかっている場合、どのように検索しておおよそのテーブル領域を取得し、それを Camelot に渡すことができますか? 正規表現 (PyMuPDF) を検索するための作業コードが既にあります。

Camelot はテキストを返すので、ボックスの座標を知る方法があると考えなければなりませんが、ここにあるドキュメントを見てもわかりません。

https://camelot-py.readthedocs.io/en/master/api.html#lower-level-classes

OpenCV ソリューションがあると確信していますが、可能であれば最初に Camelot を使用したいと考えていました。どんな助けにも感謝します。ありがとうございました。