問題タブ [tabula]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

254 問題

0 投票する

2 に答える

1206 参照

python - PDF のテキストコンテンツから CSV ファイルへの変換 - 方法は?

PDFファイルを入力として取りたいです。出力ファイルとして csv ファイルを表示したい。そのため、pdf ファイルにあるすべてのテキストデータを csv ファイルに変換する必要があります。しかし、私はこれがどのように起こるのか理解していません..私はやろうとしましたができなかったので、できるだけ早くあなたの助けが必要です.

私が行ったことは、pdfをcsvファイルに変換するTabula-pyというライブラリを使用することです。csv 形式を作成しますが、pdf ファイルから csv ファイルにコピーされるコンテンツはありません。

コードはこちら

出力は、データが存在する csv ファイルとして提供されます。私が得ているのは空のcsvファイルです。

2019-09-23T04:52:44.913

0 投票する

1 に答える

2043 参照

python - 座標を使用して PDF からテーブルを抽出する

複数ページの PDF から抽出して、PDF の一部を強調表示しようとしています。そのためには、抽出したテキストの座標が必要です。

tabula-pyを使用して、次のテーブルを抽出します。

param を使用するoutput_format='json'ことで、座標を含む各テキストを取得できます。データフレーム形式の例を次に示します (データフレームは、ここでは dict であり、読み込む必要があります) および json 形式:

最初のもののようなデータフレームを作成できますが、各テキストの座標を Rect() として作成する方法はありますか?

python pandas pdf tabula

2019-09-24T09:33:24.970

1 2 3 4 5 6 7 8 9 10

問題タブ [tabula]

python - PDF のテキスト コンテンツから CSV ファイルへの変換 - 方法は?

python - 座標を使用して PDF からテーブルを抽出する

Reference

python - PDF のテキストコンテンツから CSV ファイルへの変換 - 方法は?