1

Python で Tabula モジュールを使用しています。PDFからテキストを出力しようとしています。

私はこのコードを使用しています:

pdf_read = tabula.read_pdf(
    input_path = "Test File.pdf",
    pages = start_page_number,
    guess=False,
    area=(81.735,18.55,391.285,273.61),
    relative_area = False,
    format="TSV",
    output_path="testing_area.tsv"
    )

コードを実行すると、「出力ファイルが空です」と表示されます。

なぜこれが考えられるのでしょうか?

編集: input_path とページ以外のすべてを削除すると、データが pdf_read に正しく読み込まれ、外部ファイルに出力されません。

このオプションには何か問題があります...うーん...

編集#2:エリア部分が機能していなかった理由がわかりましたが、現在は機能していますが、何らかの理由でこれをファイルに出力することはできません。

編集 #3:私はこれを見てみました: How to convert PDF to CSV with tabula-py?

しかし、「build_options() が予期しないキーワード引数 'spreadsheet' を取得しました」というエラー メッセージが引き続き表示されます。

編集 #4:スプレッドシート オプションのない最新バージョンの tabula.py を使用しています。

ただし、データを含むファイルを出力することはまだできません。

4

1 に答える 1

1

上記でうまくいかなかった理由がわからないので、pdf_read の出力はリストです。

リストをデータフレームに変換し、to_csv を使用してデータフレームを出力しました。

コードは以下のとおりです。

import pandas as pd

df = pd.DataFrame(pdf_read,columns=["column_a"])

output_df = df.to_csv(

    "alternative_attempt_1.txt",
    header=True,
    index=True,
    sep='\t',
    mode='w',
    encoding="cp1252"

    )
于 2020-11-25T02:14:38.277 に答える