python - PDFファイルを1行ずつ読み込んでCSVを作成する方法

Question

これが私のpdfです。これここに画像の説明を入力を見つけて、それを使用してpdfを破棄しました。

6 BEDROOMS
NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant
Prop #
Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -

かなり混み合っています。それとも、PDF が判読できない形式でフォーマットされているためですか? 各行を破棄して、反復などで列を含む CSV を作成する方法があると思いました。

CSVに列を入力するように

T26 | Texan 26          | 1009 West 26th | 307      | 6x3 | ... 
e075| Texan North Campus| 5117 N Lamar   |See below | 6x3 |...

これを回避する方法はありますか？

score 0 · Accepted Answer

あなたが使用したコードスニペットは、実際には使用できないデータを提供しています。それは正しい方法ではないと思います。PDF からのスクレイピングは一般的にかなり難しいですが、pdftables.com を見てください。PDF ドキュメントからテーブルをスクレイピングするための API が提供されています。これは、ほとんどの場合に機能することがわかっています。 .

score 0 · Accepted Answer

Camelot (Python ライブラリ) を使用して、PDF から表形式のデータを抽出し、CSV にエクスポートするスクリプトを作成できます。ドキュメントはhttp://camelot-py.readthedocs.ioで確認できます。PDFへのリンクを貼っていただけると助かります。一般的なコード例を次に示します。

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_csv('file.csv')

免責事項: 私はライブラリの作成者です。

python - PDFファイルを1行ずつ読み込んでCSVを作成する方法

2 に答える 2

Related

Reference