問題タブ [tabula-py]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - tabula-py を使用して空白のセルを含むテーブルを読み取る
tabula-py を使用して、フォーム 10-K から Python に大きなテーブル (例を添付) をロードしようとしています。テーブルには明確な境界線がなく、空白のセルが多数あるため、いくつかの問題が発生します。
私のコードは
ではstream=True
、すべてのデータを取得しますが、複数行の情報は別々のエントリとして認識されます。を使用lattice=True
すると、複数の行を持つセルが 1 つのセルとして正しく認識されますが、多くの観測結果が失われます。
オプションを設定するより良い方法はありますか? 多くのオプションを試しましたが、今は行き詰まっています。どんな助けでも大歓迎です。一番、
python - 300 dpi の領域座標ピクセルによる Tabula-py 抽出テーブル
tabula-py を使用して、位置を保持する正確な領域を提供することにより、pdf からテーブルを抽出しています。
tabula-py はポイントで 72 dpi の領域座標を使用していますが、トレーニング済みの ML モデルから抽出した 300 dpi のピクセル座標があります。
tabula-py テーブル抽出で自分の領域 (300 dpi ピクセルの位置) をメソッド (read_pdf または convert_into で 72 dpi ポイント座標の領域を渡す場所) で使用する方法はありますか?
python-3.x - tabula-py のインストールに失敗しました
私は Python の経験があまりなく、助けが必要です。別のパッケージをインストールしようとしていますが、成功しません。ごく最近、tabula-py を使用してインストールしようとしましpip install tabula-py
たが、同じ応答が得られ続けます。
これをどのように解決しますか?