日付形式が異なる多数の文字列があります。文字列から日付を抽出できるようにしたいと思います。例えば:
- 今日は 2012 年 8 月です。明日は違います。
- 別の日 8月12日 別の時間
- 12/08は別フォーマット
- 別のものを持っていますか?2012 年 8 月 12 日
- 最終的に8月12日は
これらの各結果から得られると予想されるのは、2012-08-01 00:00:00、2013-08-12 00:00:00、2013-08-12 00:00:00、2012-08-12 です。 00:00:00、2013-08-12 00:00:00。
私は現在、このコードを持っています:
from dateutil import parser
print parser.parse("Today is August 2012. Tomorrow isn't",fuzzy=True)
これから、日付が 2012-08-27 00:00:00 と表示されることがわかります (今日は月の 27 日であるため)。この例で必要なのは、2012-08-01 00:00:00 です。
日が指定されていない場合、常に月の初日を強制するにはどうすればよいですか? (たとえば、2012 年 8 月を指定すると 2012-08-01 が返され、2012 年 8 月 12 日を指定すると 2012-08-12 が返されます。)