PDFファイルを変換してDjangoモデルフィールドに保存しようとしています。これまでのところ、ファイルを CSV データ フレームに変換でき、ヘッダーとデータを読み取ることができます。ただし、テーブルには大量のデータを含む 1 つの行があり、ヘッダーは日付が付けられているため、時間の経過とともに変化するため、小さな問題が発生しています。
これは私がこれまで行ったことです:
import tabula
f = tabula.read_pdf('roster.pdf', pages='1')
table = f[0].replace('\r', " ", regex=True)
print(table)
--> 1Jul\rThu ... 31Jul\rSat
0 RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC ... ... OFF DOH
1 DH:16:50 BH:06:50 ... 00:00 00:00
[2 rows x 31 columns]
row_iter = table.iterrows()
for index, row in row_iter:
print(row[0])
--> RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH
DH:16:50 BH:06:50
print(list(table.columns))
--> ['01Jul\rThu', '02Jul\rFri', '03Jul\rSat', '04Jul\rSun', '05Jul\rMon', '06Jul\rTue', '07Jul\rWed', '08Jul\rThu', '09Jul\rFri', '10Jul\rSat', '11Jul\rSun', '12Jul\rMon', '13Jul\rTue', '14Jul\rWed', '15Jul\rThu', '16Jul\rFri', '17Jul\rSat', '18Jul\rSun', '19Jul\rMon', '20Jul\rTue', '21Jul\rWed', '22Jul\rThu', '23Jul\rFri', '24Jul\rSat', '25Jul\rSun', '26Jul\rMon', '27Jul\rTue', '28Jul\rWed', '29Jul\rThu', '30Jul\rFri', '31Jul\rSat']
私が知りたいのは、列を対応するデータと照合して JSON として使用することだけです。
{"date": "01Jul", "info":"RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH DH:16:50 BH:06:50"}