問題タブ [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
238 参照

python - Pythonでアウトラインのないpdfテーブルを読む最良の方法は何ですか?

PDFのテーブルからパンダデータフレームにデータを読み込もうとしています。PDFの表の周りにアウトラインがある場合、tabula-pyを使用してこれを行うことができますが、アウトラインなしでPDFを試すと、スクリプトでエラーが発生します。

たとえば、2 つの異なる URL から入手できる PDF を見ています。URLからpdfをダウンロードし、それぞれ「JSE Opts.pdf」および「JSE Divs.pdf」として保存しました。

次のコードを使用して、「JSE Opts.pdf」を pandas データフレームに読み込むことができます。

「JSE Divs.pdf」に対して同じことをしようとすると、エラーが発生し、tabula-py はヘッダーしか読み取ることができません。

これは、テーブルの周りに線がないためだと思います。その場合、「JSE Divs.pdf」からパンダにデータを読み込む最良の方法は何ですか?

0 投票する
1 に答える
1151 参照

python-3.x - Python Tabula Library - 出力ファイルが空です

Python で Tabula モジュールを使用しています。PDFからテキストを出力しようとしています。

私はこのコードを使用しています:

コードを実行すると、「出力ファイルが空です」と表示されます。

なぜこれが考えられるのでしょうか?

編集: input_path とページ以外のすべてを削除すると、データが pdf_read に正しく読み込まれ、外部ファイルに出力されません。

このオプションには何か問題があります...うーん...

編集#2:エリア部分が機能していなかった理由がわかりましたが、現在は機能していますが、何らかの理由でこれをファイルに出力することはできません。

編集 #3:私はこれを見てみました: How to convert PDF to CSV with tabula-py?

しかし、「build_options() が予期しないキーワード引数 'spreadsheet' を取得しました」というエラー メッセージが引き続き表示されます。

編集 #4:スプレッドシート オプションのない最新バージョンの tabula.py を使用しています。

ただし、データを含むファイルを出力することはまだできません。