問題タブ [tabula]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1206 参照

python - PDF のテキスト コンテンツから CSV ファイルへの変換 - 方法は?

PDFファイルを入力として取りたいです。出力ファイルとして csv ファイルを表示したい。そのため、pdf ファイルにあるすべてのテキスト データを csv ファイルに変換する必要があります。しかし、私はこれがどのように起こるのか理解していません..私はやろうとしましたができなかったので、できるだけ早くあなたの助けが必要です.

私が行ったことは、pdfをcsvファイルに変換するTabula-pyというライブラリを使用することです。csv 形式を作成しますが、pdf ファイルから csv ファイルにコピーされるコンテンツはありません。

コードはこちら

出力は、データが存在する csv ファイルとして提供されます。私が得ているのは空のcsvファイルです。

0 投票する
1 に答える
2043 参照

python - 座標を使用して PDF からテーブルを抽出する

複数ページの PDF から抽出して、PDF の一部を強調表示しようとしています。そのためには、抽出したテキストの座標が必要です。

tabula-pyを使用して、次のテーブルを抽出します。

param を使用するoutput_format='json'ことで、座標を含む各テキストを取得できます。データフレーム形式の例を次に示します (データフレームは、ここでは dict であり、読み込む必要があります) および json 形式:

最初のもののようなデータフレームを作成できますが、各テキストの座標を Rect() として作成する方法はありますか?