2

私は、大量のメール、通知、ニュースレターではなく、実際の人間から送信されたメールを識別する必要があるプロジェクトに取り組んでいます。それを行うための明確な方法はありますか?電子メールのヘッダーに役立つ情報はありますか。私は Gmail IMAP 上で作業しているので、既にスパム以外のメールを持っています。

この点で何か助けていただければ幸いです。ありがとう!

4

1 に答える 1

4

バルク メールと個別メールを区別する明確な方法はありません。スパムとは異なり、ほとんどのバルク メールは要求/期待されるため、送信者はスパム フィルターを回避するために奇妙なことをしません。

ただし、探すことができるいくつかの傾向があります。確実に行いたい場合は、スパムフィルターのように何らかのスコアリング システムを適用する必要があるでしょう。

また、かなりの割合の偽陽性と偽陰性が発生することを受け入れる必要があります。

バルクメールに共通するいくつかの事柄は、パーソナライズされた通信ではあまり表示されません:

  1. 「To」および「Cc」アドレスにはローカル受信者が含まれていません。送信者は、「recipientA@recipientAdomain.com」や「recipientB@recipientBdomain.com」などではなく、「mailList@mydomain.com」に送信することがあります。このような場合、「To」に 1 つのアドレスしか表示されない可能性もあります。 「Cc」には何も表示されません
  2. 「差出人」アドレスは、「noreply@」、「newsletter@」、「do-not-reply@」、「mailinglist@」、「support@」や「sales@」などのあまり一般的ではない用語です(ただし、偽陽性)
  3. List-Unsubscribe:」ヘッダーの存在
  4. メッセージには、購読解除リンクが含まれています。パターン マッチングを実行して、メールの最後の数行にある一般的なフレーズを見つけます。リンク、または「登録解除」、「オプトアウト」などの単語を探します。
  5. メーリング リストには、リッチ コンテンツが含まれる傾向があります。CSS の多用と大量の画像、メッセージ全体が<table></table>or<ul><li></li></ul>構造内に含まれているかどうかを確認します。つまり、メール クライアントではなく、Dreamweaver のようなものが入れるものです。
  6. メッセージの上部にあるヘッダーまたは太字のコンテンツ。メッセージの最初の部分がニュースレターに似ている場合、それはおそらくニュースレターです。
  7. 多数のリンク、または同じ (または同じ少数の) Web サイトへの頻繁なリンク。ニュースレターは、できる限りユーザーを会社のサイトに誘導しようとします。リンクされたドメインが送信者ドメインと一致する (または類似している) 場合は、これをさらに高く評価することができます。
  8. ソーシャル メディアへの過度の言及。複数の記事を含むニュースレターの場合、各記事には独自の「これをツイート」、「これにいいね」リンクが含まれる場合があります。個人ユーザーは、Twitter、Facebook などへの参照を (多くても) 1 つ (署名に) 含む可能性があります。
  9. 通知やその他の自動生成メッセージは、多くの場合、同じ基本形式に従います。機能がある場合は、前のメッセージに対して何らかの差分またはその他の比較を実行します。強い一致は、自動化を意味します。
  10. あいさつがないか、一般的なあいさつです。ただし、個人的な電子メールは「親愛なるフレッド」の部分もスキップすることが多いため、これだけでは十分な検出にはなりません。しかし、「親愛なるユーザー」や「親愛なる顧客」などは、ほぼ間違いなく一般的なものです。
  11. 「よろしく、イアン」または「敬具、ジョン・ドウ」で終わる可能性は低い
  12. 送信者は以前に高いスコアを獲得しています。記録をつけてください。送信者が数回ハイ スコアをトリガーする場合、それらはほぼ間違いなくバルク メールです。
于 2012-02-04T19:21:11.030 に答える