私が取り組んでいるより大きな個人プロジェクトの一環として、さまざまなテキスト ソースからインライン日付を分離しようとしています。
たとえば、さまざまな形式をとる文字列 (通常は英語の文またはステートメントの形式をとる) の大きなリストがあります。
中央設計委員会セッション 火曜日 10/22 午後 6:30
Th 9/19 LAB: シリアル エンコーディング (セクション 2.2)
今日来られない方のために、12月15日にもう1回あります。
ワークブック 3 (最低賃金): 9 月 18 日水曜日午後 11 時 59 分まで
彼は9月15日に飛びます。
これらの日付は自然なテキストに沿っていますが、具体的に自然言語の形式になっているものはありません (たとえば、「会議は明日から 2 週間になります」という表現はなく、すべて明示的です)。
この種の処理の経験があまりない人として、何から始めるのが最適でしょうか? dateutil.parser
module やparsedatetimeなどを調べましたが、日付を分離した後のようです。
このため、日付と余分なテキストを抽出する良い方法はありますか
input: Th 9/19 LAB: Serial encoding (Section 2.2)
output: ['Th 9/19', 'LAB: Serial encoding (Section 2.2)']
または似たようなものですか?このような処理は Gmail や Apple Mail などのアプリケーションで行われているようですが、Python で実装することは可能でしょうか?