したがって、次のような行があるとします。
> Mar 14 20:22:41 subdomain.mydomain.colo postfix/smtpd[16862]: NOQUEUE:
> reject: RCPT from unknown[1.2.3.4]: 450 4.7.1 Client host rejected:
> cannot find your reverse hostname, [5.6.7.8]; from=<erp@misms.net.in>
> to=<a@domain1.com> proto=ESMTP helo=<a.domain.net> also
> from=<>
標準のトークナイザーを使用する場合、問題はほとんどありません。
- 標準のトークナイザーを使用している場合、検索できません
from=<>
。 - これを行うために、空白トークナイザーは問題なく機能します。しかし、同時に、文字が含まれているため、電子メール ID
a@domain1.com
またはドメイン を検索することはできません。ひとつのトークンになりたいa.domain.net
<>
a@domain1.com
- 標準のトークナイザーを使えば検索できるのです
a@domain1.com
が、実際には2つのトークンです(効率が悪いと思います)。 - 標準のトークナイザーは、私が望まないホスト名 subdomain.mydomain.colo を壊します。
それで、標準のトークナイザーを使用するだけでなく、正規表現に一致する単語をトークン化しないようにテキストを分析する方法はありますか? 私はESの初心者なので、可能であれば小さな例を挙げてみてください。それは素晴らしいことです.
正規表現関連のトークナイザーは高価になる可能性があると感じているので、空白アナライザーを実行できる変更があり、さらにホスト名、電子メール ID などのトークンを保持し、いくつかの単語を保持できるようになれば、それは素晴らしいことです。
どんな種類の入力でも答えてください。
PS: ES メーリングリストでこの投稿を見ましたが、すべての電子メール アドレス/ホスト名の完全なリストを取得できないため、電子メール アドレスまたはホスト名では機能しません。ですから、私の要件を理解していただければ幸いです。