python - pdfminer コードで正規表現を使用して、2 つの見出しの間のテキストを抽出するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/54076649 2019-01-07T14:51:43.130

655 次

-1

データを抽出したいPDFがいくつかあります。以下のコードを使用して PDF からすべてのデータを抽出することができましたが、2 つの異なる見出しの間のテキストを抽出したいと考えています。2 つの見出しの間のテキストは異なりますが、2 つの見出しは各 PDF で同じままであるため、これを行うには正規表現を使用するのが最善の方法だと思います。

これは PDF の例です: https://www.scribd.com/document/396797318/123

「3.入社研修」から「4.企業研修・部門研修」までのテキストを抽出したい

次のコードは、PDF からデータを抽出するために使用しているものです。

def pdf_to_text(path):
    manager = PDFResourceManager()
    retstr = BytesIO()
    layout = LAParams(all_texts=True)
    device = TextConverter(manager, retstr, laparams=layout)
    filepath = open(path, 'rb')
    interpreter = PDFPageInterpreter(manager, device)

    for page in PDFPage.get_pages(filepath, check_extractable=False):
        interpreter.process_page(page)

    text = retstr.getvalue()

    filepath.close()
    device.close()
    retstr.close()
    return text

if __name__ == "__main__":
    text = pdf_to_text("123.pdf")
    print(text)

必要な情報を取得するためにどの正規表現を使用できますか?

python - pdfminer コードで正規表現を使用して、2 つの見出しの間のテキストを抽出するにはどうすればよいですか?

1 に答える 1

Related

Reference