正規表現を使用してテキストファイルから「エントリ」を抽出しようとしています。ファイルの各行は、行が空白で始まっていない限り、個別のエントリです。空白の場合、その行は前の行の続きです。
例:
import re
INPUT = """\
This is entry 1.
This
is
entry 2.
And this is entry 3.
This
is
entry
4."""
OUTPUT = ["This is entry 1.",
"This\n is\n entry 2.",
"And this is entry 3.",
"This\n is\n entry\n 4."]
# What should the pattern be?
PATTERN = re.compile("(.+)(?=\n|$)")
assert PATTERN.findall(INPUT) == OUTPUT
PATTERN
すべてのエントリを一致させるにはどうすればよいですか?