50

私が取り組んでいるより大きな個人プロジェクトの一環として、さまざまなテキスト ソースからインライン日付を分離しようとしています。

たとえば、さまざまな形式をとる文字列 (通常は英語の文またはステートメントの形式をとる) の大きなリストがあります。

中央設計委員会セッション 火曜日 10/22 午後 6:30

Th 9/19 LAB: シリアル エンコーディング (セクション 2.2)

今日来られない方のために、12月15日にもう1回あります。

ワークブック 3 (最低賃金): 9 月 18 日水曜日午後 11 時 59 分まで

彼は9月15日に飛びます。

これらの日付は自然なテキストに沿っていますが、具体的に自然言語の形式になっているものはありません (たとえば、「会議は明日から 2 週間になります」という表現はなく、すべて明示的です)。

この種の処理の経験があまりない人として、何から始めるのが最適でしょうか? dateutil.parsermodule やparsedatetimeなどを調べましたが、日付を分離したのようです。

このため、日付と余分なテキストを抽出する良い方法はありますか

input:  Th 9/19 LAB: Serial encoding (Section 2.2)
output: ['Th 9/19', 'LAB: Serial encoding (Section 2.2)']

または似たようなものですか?このような処理は Gmail や Apple Mail などのアプリケーションで行われているようですが、Python で実装することは可能でしょうか?

4

7 に答える 7