テキストから日付 (日、月、年) を抽出する方法を探しています。つまり、人間が書いた文字列内のすべての日付 (というより、できるだけ多くの日付) を見つけたいと考えています。
可能な限り多くの形式をカバーする Python 正規表現はありますか?
コメント:
from dateutil.parser import parse
parse(s, fuzzy = True)
正常に動作しますが、1 つの文字列につき 1 つの日付に制限されます。
例:
プログラムは 2013 年 1 月 21 日から 2013 年 2 月 15 日まで sth で開催されます。資金の申請は 2012 年 4 月 15 日まで受け付けます。承認通知: 8 月 1 日以降。早期支払い期限: 15.10.12。等 遅く: 11/20/12.
通常 (常にではありませんが)、規則は単一のエントリに対して多かれ少なかれ一貫しています。
いくつかのケースで正規表現を作成するのは簡単です。私はそれを行うことができます。問題は、すでに多くの異なるものを収集しているものがあるかどうかです。