問題タブ [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
932 参照

python - tabula-py を使用して空白のセルを含むテーブルを読み取る

tabula-py を使用して、フォーム 10-K から Python に大きなテーブル (例を添付) をロードしようとしています。テーブルには明確な境界線がなく、空白のセルが多数あるため、いくつかの問題が発生します。

私のコードは

ではstream=True、すべてのデータを取得しますが、複数行の情報は別々のエントリとして認識されます。を使用lattice=Trueすると、複数の行を持つセルが 1 つのセルとして正しく認識されますが、多くの観測結果が失われます。

オプションを設定するより良い方法はありますか? 多くのオプションを試しましたが、今は行き詰まっています。どんな助けでも大歓迎です。一番、

読み込もうとしているテーブルの例

0 投票する
0 に答える
675 参照

python - 300 dpi の領域座標ピクセルによる Tabula-py 抽出テーブル

tabula-py を使用して、位置を保持する正確な領域を提供することにより、pdf からテーブルを抽出しています。

tabula-py はポイントで 72 dpi の領域座標を使用していますが、トレーニング済みの ML モデルから抽出した 300 dpi のピクセル座標があります。

tabula-py テーブル抽出で自分の領域 (300 dpi ピクセルの位置) をメソッド (read_pdf または convert_into で 72 dpi ポイント座標の領域を渡す場所) で使用する方法はありますか?

0 投票する
1 に答える
2101 参照

python-3.x - tabula-py のインストールに失敗しました

私は Python の経験があまりなく、助けが必要です。別のパッケージをインストールしようとしていますが、成功しません。ごく最近、tabula-py を使用してインストールしようとしましpip install tabula-pyたが、同じ応答が得られ続けます。

これをどのように解決しますか?