python-3.x - PDFで生成されたテーブル（表）からデータを抽出する

Question

PDFファイルを変換してDjangoモデルフィールドに保存しようとしています。これまでのところ、ファイルを CSV データフレームに変換でき、ヘッダーとデータを読み取ることができます。ただし、テーブルには大量のデータを含む 1 つの行があり、ヘッダーは日付が付けられているため、時間の経過とともに変化するため、小さな問題が発生しています。

ここにpdfの表の抜粋があります：

これは私がこれまで行ったことです：

import tabula
f = tabula.read_pdf('roster.pdf', pages='1')
table = f[0].replace('\r', " ", regex=True)
print(table)

--> 1Jul\rThu  ...   31Jul\rSat
0  RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC ...  ...      OFF DOH
1                                  DH:16:50 BH:06:50  ...  00:00 00:00
[2 rows x 31 columns]

row_iter = table.iterrows()
for index, row in row_iter:
    print(row[0])
--> RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH
DH:16:50 BH:06:50

print(list(table.columns))

--> ['01Jul\rThu', '02Jul\rFri', '03Jul\rSat', '04Jul\rSun', '05Jul\rMon', '06Jul\rTue', '07Jul\rWed', '08Jul\rThu', '09Jul\rFri', '10Jul\rSat', '11Jul\rSun', '12Jul\rMon', '13Jul\rTue', '14Jul\rWed', '15Jul\rThu', '16Jul\rFri', '17Jul\rSat', '18Jul\rSun', '19Jul\rMon', '20Jul\rTue', '21Jul\rWed', '22Jul\rThu', '23Jul\rFri', '24Jul\rSat', '25Jul\rSun', '26Jul\rMon', '27Jul\rTue', '28Jul\rWed', '29Jul\rThu', '30Jul\rFri', '31Jul\rSat']

私が知りたいのは、列を対応するデータと照合して JSON として使用することだけです。

{"date": "01Jul", "info":"RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH DH:16:50 BH:06:50"}

python-3.x - PDFで生成されたテーブル（表）からデータを抽出する

0 に答える 0

Related

Reference