0

みんな!

私は Lucene の新人です。

そして、 lucene を使用して履歴書フィルター プロジェクトに取り組んでいます。まず、履歴書から誕生日などの基本的な情報を抽出したいと思います。

誕生日: 1989/10/19 などのような 1 行が常にあるとします。正規表現を直接使用するのではなく、Lucene でこの種の情報を抽出するにはどうすればよいでしょうか。

現在、SpanNearQuery を使用すると役立つ可能性があります。しかし、生年月日情報を一致させるために、SpanNearQuery に WildcardQuery を追加できないようです。

私は完全に立ち往生しています。良い提案はありますか?本当に感謝しています!

4

1 に答える 1

1

大量のテキストと日付形式を含む Lucene フィールドから日付を抽出する特効薬はありません。最良の方法は、インデックス作成プロセス中に用語を分解し、数字を日付として識別することができるカスタム アナライザーを作成することです。

私は Lucene 用にいくつかのアナライザーを書きましたが、そのようなものは本当に些細なことではありません...特に Lucene を初めて使用する場合はそうです。

于 2012-10-30T00:17:57.763 に答える