問題タブ [tabula-py]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonでアウトラインのないpdfテーブルを読む最良の方法は何ですか?
PDFのテーブルからパンダデータフレームにデータを読み込もうとしています。PDFの表の周りにアウトラインがある場合、tabula-pyを使用してこれを行うことができますが、アウトラインなしでPDFを試すと、スクリプトでエラーが発生します。
たとえば、2 つの異なる URL から入手できる PDF を見ています。URLからpdfをダウンロードし、それぞれ「JSE Opts.pdf」および「JSE Divs.pdf」として保存しました。
次のコードを使用して、「JSE Opts.pdf」を pandas データフレームに読み込むことができます。
「JSE Divs.pdf」に対して同じことをしようとすると、エラーが発生し、tabula-py はヘッダーしか読み取ることができません。
これは、テーブルの周りに線がないためだと思います。その場合、「JSE Divs.pdf」からパンダにデータを読み込む最良の方法は何ですか?
python-3.x - Python Tabula Library - 出力ファイルが空です
Python で Tabula モジュールを使用しています。PDFからテキストを出力しようとしています。
私はこのコードを使用しています:
コードを実行すると、「出力ファイルが空です」と表示されます。
なぜこれが考えられるのでしょうか?
編集: input_path とページ以外のすべてを削除すると、データが pdf_read に正しく読み込まれ、外部ファイルに出力されません。
このオプションには何か問題があります...うーん...
編集#2:エリア部分が機能していなかった理由がわかりましたが、現在は機能していますが、何らかの理由でこれをファイルに出力することはできません。
編集 #3:私はこれを見てみました: How to convert PDF to CSV with tabula-py?
しかし、「build_options() が予期しないキーワード引数 'spreadsheet' を取得しました」というエラー メッセージが引き続き表示されます。
編集 #4:スプレッドシート オプションのない最新バージョンの tabula.py を使用しています。
ただし、データを含むファイルを出力することはまだできません。