基本的にフォームであるPDFファイルがあります。入力可能な場所を返す必要があります。入力するフィールド、ページ番号、境界ボックスを配置できる座標。
私はこの問題を処理するためにさまざまなアプローチをとってきましたが、結局のところ、PDF での作業は非常に困難です。
PDF ファイルの詳細:
from pdfrw import PdfReader
pdf = PdfReader('RED-46808(Short).pdf')
print(pdf.keys())
print(pdf.Info)
print(pdf.Root.keys())
print('PDF has {} pages'.format(len(pdf.pages)))
どちらが返されますか:
['/Root', '/Info', '/ID', '/Size']
{'/CreationDate': "(D:20171003184937+08'00')", '/Creator': '(Microsoft® Word 2013)', '/ModDate': '(D:20200214163844Z)', '/Producer': '(Microsoft® Word 2013)'}
['/AcroForm', '/Lang', '/MarkInfo', '/Metadata', '/Names', '/OutputIntents', '/Pages', '/StructTreeRoot', '/Type']
PDF has 5 pages
私がこれまでに行ったことは次のとおりです。ほとんどの場合、ページを読んでフォームに入力することはできますが、フォームに入力する必要はありません。フォームに入力する必要がある場所の座標を取得して、適切な場所にバウンディング ボックス。
import os
import pdfrw
INVOICE_TEMPLATE_PATH = 'RED-46808(Short).pdf'
INVOICE_OUTPUT_PATH = 'output.pdf'
ANNOT_KEY = '/Annots'
ANNOT_FIELD_KEY = '/T'
ANNOT_VAL_KEY = '/V'
ANNOT_RECT_KEY = '/Rect'
SUBTYPE_KEY = '/Subtype'
WIDGET_SUBTYPE_KEY = '/Widget'
def write_fillable_pdf(input_pdf_path, output_pdf_path, data_dict):
template_pdf = pdfrw.PdfReader(input_pdf_path)
annotations = template_pdf.pages[0][ANNOT_KEY]
for annotation in annotations:
if annotation[SUBTYPE_KEY] == WIDGET_SUBTYPE_KEY:
if annotation[ANNOT_FIELD_KEY]:
key = annotation[ANNOT_FIELD_KEY][1:-1]
if key in data_dict.keys():
annotation.update(
pdfrw.PdfDict(V='{}'.format(data_dict[key]))
)
# pdfrw.PdfDict(AP=data_dict[key], V=data_dict[key])
pdfrw.PdfWriter().write(output_pdf_path, template_pdf)
data_dict = {
'business_name_1': 'Bostata',
'customer_name': 'company.io',
'customer_email': 'joe@company.io',
'invoice_number': '102394',
'send_date': '2018-02-13',
'due_date': '2018-03-13',
'note_contents': 'Thank you for your business, Joe',
'item_1': 'Data consulting services',
'item_1_quantity': '10 hours',
'item_1_price': '$200/hr',
'item_1_amount': '$2000',
'subtotal': '$2000',
'tax': '0',
'discounts': '0',
'total': '$2000',
'business_name_2': 'Bostata LLC',
'business_email_address': 'hi@bostata.com',
'business_phone_number': '(617) 930-4294'
}
if __name__ == '__main__':
write_fillable_pdf(INVOICE_TEMPLATE_PATH, INVOICE_OUTPUT_PATH, data_dict)
上記のコードは、マークされたフィールドで満たされた PDF を常に返すわけではなく、特に役に立ちません。ここからどこへ行けばいいのかわからない。私が自由に使えるほとんどすべてのリソースを使い果たしたので、誰かが私を助けることができれば. 私はPDFを扱うのが初めてです。