0

これが私のpdfです。これここに画像の説明を入力 を見つけて、それを使用してpdfを破棄しました。

6 BEDROOMS
NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant
Prop #
Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -     

かなり混み合っています。それとも、PDF が判読できない形式でフォーマットされているためですか? 各行を破棄して、反復などで列を含む CSV を作成する方法があると思いました。

CSVに列を入力するように

T26 | Texan 26          | 1009 West 26th | 307      | 6x3 | ... 
e075| Texan North Campus| 5117 N Lamar   |See below | 6x3 |...

これを回避する方法はありますか?

4

2 に答える 2

0

あなたが使用したコード スニペットは、実際には使用できないデータを提供しています。それは正しい方法ではないと思います。PDF からのスクレイピングは一般的にかなり難しいですが、pdftables.com を見てください。PDF ドキュメントからテーブルをスクレイピングするための API が提供されています。これは、ほとんどの場合に機能することがわかっています。 .

于 2014-09-17T16:48:34.043 に答える
0

Camelot (Python ライブラリ) を使用して、PDF から表形式のデータを抽出し、CSV にエクスポートするスクリプトを作成できます。ドキュメントはhttp://camelot-py.readthedocs.ioで確認できます。PDFへのリンクを貼っていただけると助かります。一般的なコード例を次に示します。

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables[0].to_csv('file.csv')

免責事項: 私はライブラリの作成者です。

于 2018-11-09T18:49:40.240 に答える