問題タブ [tabula]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
146 参照

python - リスト内の順次データフレームを同じ列数で結合します (改ページで分割された PDF から)

Tabula で PDF を読んだ後、複数のページにまたがったために分割されたデータフレームがいくつかあります。それらを連結してヘッダー行を削除して、テーブル全体を復元したいと考えています。ドキュメントごとにテーブルの数が変わると思うので、テーブルが分割されるあらゆるシナリオをカバーするはずです。

forループでリストを調べて、次のデータフレームに同じ数の列があるかどうかを確認したいことはわかっています。その場合、2 つを連結する必要があります。手動での連結 (print(pd.concat([df_list[12],df_list[13],df_list[14]])) を使用) が機能するため、これをどのように記述するかを理解するだけです。

これがどうあるべきかについての私の概算です:

「TypeError: Could not operation 1 with block values must be str, not int」というエラーが表示されますが、この for ループで何をしているのかわかりません。

0 投票する
1 に答える
1098 参照

python - PythonでPDFファイルからグリッドなしでテーブルを抽出する方法は何ですか?

私は、pdf ファイルのテーブルからデータを抽出するタスクを自動化する必要があるプロジェクトに取り組んでいます。このプロジェクトでは python を使用しています。

この問題にアプローチするより良い方法があるかどうか疑問に思っています。

私はすでにタブラを使用していますが、テーブルに明確なグリッドがない場合、タブラは正しく機能しません。

Open CV を使用してテーブルとセルの周りにグリッドを描画し、OCR を使用してファイルからデータを抽出することを考えています。

これは、テーブルを抽出しようとしているpdfページの例です