私がやりたいことは、生の自然なテキストを解析し、日付を説明するすべてのフレーズを見つけることです。
日付へのすべての参照がマークアップされた、かなり大きなコーパスがあります。
I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>
日付フレーズを解釈したくありません。ただ見つけてください。それらが日付であるという事実は関係ありません (実際には日付でさえありませんが、詳細で退屈させたくありません)、基本的には可能な値の制限のないセットです。値自体の文法はコンテキストフリーとして近似できますが、手動で構築するのは非常に複雑であり、複雑さが増すにつれて誤検出を回避することがますます難しくなります。
私はこれが少し遠いショットであることを知っているので、すぐに使えるソリューションがそこに存在するとは思っていませんが、どのような技術や研究を使用できる可能性がありますか?