私は約のルセン指数を持っています。100 万ドキュメント。これらのドキュメントから、私はマイニングしたい
- メールアドレス
- 署名 - ( [空白]/s/[空白]john doe[空白] )
- 各ドキュメントからの特定の識別子 (正規表現パターン"\s[0-9]{3}[a-zA-Z0-9]{6}\s"に従います)。
理想的には、インデックスの構築時にsolrを使用する方がはるかに簡単であることは理解していますが、構築されたluceneインデックスからどのようにこれを行うことができますか?
私はJavaを使用しています。メールアドレスの検索では、.setAllowLeadingWildcard(true)を試してから、@を検索してすべてのメールアドレスを見つけましたが、実際にはゼロの結果が得られました。lukeで@を検索すると、結果はゼロになります。luke で@hotmail.comを検索すると、aaaa@hotmail.com などの有効な電子メール アドレスを含む結果が多数表示されます。
インデックスはStandardAnalyzerを使用して作成されました。問題があるかどうかはわかりませんが、テキストは UTF-8 だと思います。
役立つ提案、ポインタは素晴らしいです! これはフロントエンド向けではないため、クエリはほぼリアルタイムである必要はありません。