java - Lucene: インデックスから電子メールアドレス、名前、識別子をマイニングする

Question

私は約のルセン指数を持っています。100 万ドキュメント。これらのドキュメントから、私はマイニングしたい

メールアドレス
署名 - ( [空白]/s/[空白]john doe[空白] )
各ドキュメントからの特定の識別子 (正規表現パターン"\s[0-9]{3}[a-zA-Z0-9]{6}\s"に従います)。

理想的には、インデックスの構築時にsolrを使用する方がはるかに簡単であることは理解していますが、構築されたluceneインデックスからどのようにこれを行うことができますか?

私はJavaを使用しています。メールアドレスの検索では、.setAllowLeadingWildcard(true)を試してから、@を検索してすべてのメールアドレスを見つけましたが、実際にはゼロの結果が得られました。lukeで@を検索すると、結果はゼロになります。luke で@hotmail.comを検索すると、aaaa@hotmail.com などの有効な電子メールアドレスを含む結果が多数表示されます。

インデックスはStandardAnalyzerを使用して作成されました。問題があるかどうかはわかりませんが、テキストは UTF-8 だと思います。

役立つ提案、ポインタは素晴らしいです! これはフロントエンド向けではないため、クエリはほぼリアルタイムである必要はありません。

java - Lucene: インデックスから電子メール アドレス、名前、識別子をマイニングする

1 に答える 1

Related

Reference

java - Lucene: インデックスから電子メールアドレス、名前、識別子をマイニングする