9

テキストから日付参照を抽出する簡単で効果的な方法を見つけた人はいますか? 時間抽出ツールをかなり探しましたが、それほど多くはありません。いくつかのホワイト ペーパーがありますが、セマンティック Web 全体のサブセットに分類されるようですが、あまり注目されていません。

80% の効果があるものを探しているだけです。「2009 年 1 月の翌月」のようなものをキャプチャする必要はありませんが、基本的な共通の日付エンティティは適切です。

私は、凝った正規表現であっても、すべての提案を受け入れます。

撃て!

(そしてありがとう - ヘンリー)

4

3 に答える 3

1

私がこれを行った1つの方法は、4つの数字を探して数字に変換することです。数値が関心のある年の範囲内にある場合は、使用できる年がある可能性があります。一致する月と日に興味がある場合は、隣接する単語をチェックして、それらが月の名前であるか、1 から 31 までの数字であるかを確認できます。これで 80% の要件が満たされると確信しています。

年の正規表現: [0-9]{4} - 数値に変換し、有効と見なす年の範囲内にあるかどうかを確認する必要があります。

月の正規表現: 1 月 | 1 月 | 2 月 | 2 月 ... など、各月

月の日の正規表現: [0-9]{1,2} - 数値に変換して、それが 1-31 かどうかを確認する必要があります

于 2009-07-16T01:01:09.913 に答える
-3

何をフィードするかを見つける方法について空白を描いていますが、このライブラリはさまざまな日付を解析し、「これは実際の日付ですか」関数として使用できます。(完全な開示、私はそのlibの作者です)

于 2009-07-16T17:35:34.337 に答える