lucene - lucene を使用して 1 つの履歴書から情報を抽出する方法

Question

みんな！

私は Lucene の新人です。

そして、 lucene を使用して履歴書フィルタープロジェクトに取り組んでいます。まず、履歴書から誕生日などの基本的な情報を抽出したいと思います。

誕生日: 1989/10/19 などのような 1 行が常にあるとします。正規表現を直接使用するのではなく、Lucene でこの種の情報を抽出するにはどうすればよいでしょうか。

現在、SpanNearQuery を使用すると役立つ可能性があります。しかし、生年月日情報を一致させるために、SpanNearQuery に WildcardQuery を追加できないようです。

私は完全に立ち往生しています。良い提案はありますか？本当に感謝しています！

score 1 · Accepted Answer

大量のテキストと日付形式を含む Lucene フィールドから日付を抽出する特効薬はありません。最良の方法は、インデックス作成プロセス中に用語を分解し、数字を日付として識別することができるカスタムアナライザーを作成することです。

私は Lucene 用にいくつかのアナライザーを書きましたが、そのようなものは本当に些細なことではありません...特に Lucene を初めて使用する場合はそうです。

1 に答える 1