Python で Tabula モジュールを使用しています。PDFからテキストを出力しようとしています。
私はこのコードを使用しています:
pdf_read = tabula.read_pdf(
input_path = "Test File.pdf",
pages = start_page_number,
guess=False,
area=(81.735,18.55,391.285,273.61),
relative_area = False,
format="TSV",
output_path="testing_area.tsv"
)
コードを実行すると、「出力ファイルが空です」と表示されます。
なぜこれが考えられるのでしょうか?
編集: input_path とページ以外のすべてを削除すると、データが pdf_read に正しく読み込まれ、外部ファイルに出力されません。
このオプションには何か問題があります...うーん...
編集#2:エリア部分が機能していなかった理由がわかりましたが、現在は機能していますが、何らかの理由でこれをファイルに出力することはできません。
編集 #3:私はこれを見てみました: How to convert PDF to CSV with tabula-py?
しかし、「build_options() が予期しないキーワード引数 'spreadsheet' を取得しました」というエラー メッセージが引き続き表示されます。
編集 #4:スプレッドシート オプションのない最新バージョンの tabula.py を使用しています。
ただし、データを含むファイルを出力することはまだできません。