データを抽出したいPDFがいくつかあります。以下のコードを使用して PDF からすべてのデータを抽出することができましたが、2 つの異なる見出しの間のテキストを抽出したいと考えています。2 つの見出しの間のテキストは異なりますが、2 つの見出しは各 PDF で同じままであるため、これを行うには正規表現を使用するのが最善の方法だと思います。
これは PDF の例です: https://www.scribd.com/document/396797318/123
「3.入社研修」から「4.企業研修・部門研修」までのテキストを抽出したい
次のコードは、PDF からデータを抽出するために使用しているものです。
def pdf_to_text(path):
manager = PDFResourceManager()
retstr = BytesIO()
layout = LAParams(all_texts=True)
device = TextConverter(manager, retstr, laparams=layout)
filepath = open(path, 'rb')
interpreter = PDFPageInterpreter(manager, device)
for page in PDFPage.get_pages(filepath, check_extractable=False):
interpreter.process_page(page)
text = retstr.getvalue()
filepath.close()
device.close()
retstr.close()
return text
if __name__ == "__main__":
text = pdf_to_text("123.pdf")
print(text)
必要な情報を取得するためにどの正規表現を使用できますか?