問題タブ [tabula]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PDF のテキスト コンテンツから CSV ファイルへの変換 - 方法は?
PDFファイルを入力として取りたいです。出力ファイルとして csv ファイルを表示したい。そのため、pdf ファイルにあるすべてのテキスト データを csv ファイルに変換する必要があります。しかし、私はこれがどのように起こるのか理解していません..私はやろうとしましたができなかったので、できるだけ早くあなたの助けが必要です.
私が行ったことは、pdfをcsvファイルに変換するTabula-pyというライブラリを使用することです。csv 形式を作成しますが、pdf ファイルから csv ファイルにコピーされるコンテンツはありません。
コードはこちら
出力は、データが存在する csv ファイルとして提供されます。私が得ているのは空のcsvファイルです。
python - 座標を使用して PDF からテーブルを抽出する
複数ページの PDF から抽出して、PDF の一部を強調表示しようとしています。そのためには、抽出したテキストの座標が必要です。
tabula-pyを使用して、次のテーブルを抽出します。
param を使用するoutput_format='json'
ことで、座標を含む各テキストを取得できます。データフレーム形式の例を次に示します (データフレームは、ここでは dict であり、読み込む必要があります) および json 形式:
最初のもののようなデータフレームを作成できますが、各テキストの座標を Rect() として作成する方法はありますか?