python - 正規表現の日付の一致: 「死亡日\n1756 年 1 月 27 日」の「1756 年 1 月 27 日」は、文字列の「死亡日」の部分も返しません。

Question

次の文字列が与えられたとします。

stri = "Date 26 March 1256\nDate of death\n27 January 1756\n25 January 1567\n death"

ここで、の直後Date of death、つまりの日付のみを抽出したいと思います27 January 1756。

私はこれまでに得ました：

>>> regex = re.compile(r"Date of death.*?[0-9][0-9]? [A-z]+ [0-9]{4}", re.DOTALL)
>>> print regex.findall(stri)
['Date of death\n27 January 1756']

27 January 1756しかし、1回の正規表現検索でのみ取得したいと思います。

score 4 · Accepted Answer

findall返したい一致の部分の周りにキャプチャグループ (括弧) を使用する必要があります。

>>> regex = re.compile(r"Date of death.*?([0-9][0-9]? [A-z]+ [0-9]{4})", re.DOTALL)
>>> print regex.findall(stri)
['27 January 1756']

score 2 · Accepted Answer

代わりに後読みを使用します。

regex = re.compile(r"(?<=Date of death\n)[0-9][0-9]? [A-z]+ [0-9]{4}", re.DOTALL)

Date of death\nこれは、実際に一致に含めることなく、現在の位置がによって先行されているかどうかを確認します。

.*?可変長の後読みはほとんどの正規表現エンジンでサポートされていないため、現在は使用できないことに注意してください。

組み込みの文字クラスを使用して、正規表現を少し短くすることもできます\d。

regex = re.compile(r"(?<=Date of death\n)\d{1,2} [A-z]+ \d{4}", re.DOTALL)

score 1 · Accepted Answer

これはどう：

In [64]: m=re.search("(?<=Date of death)\s+(\d+ \w+ \d+)",stri)

In [65]: m.groups()
Out[65]: ('27 January 1756',)

In [66]: m.groups()[0]
Out[66]: '27 January 1756'

score 1 · Accepted Answer

キャプチャグループを使用します。

regex = re.compile(r"Date of death (.*?[0-9]{1,2} [A-z]+ [0-9]{4})", re.DOTALL)

python - 正規表現の日付の一致: 「死亡日\n1756 年 1 月 27 日」の「1756 年 1 月 27 日」は、文字列の「死亡日」の部分も返しません。

4 に答える 4

Related

Reference