短いテキスト(電子メール)が既知のテンプレートと一致することを検証する問題を処理するアルゴリズムまたはアルゴリズムスペースを探しています。コーディングはおそらくpythonまたはperlですが、それは柔軟です。
ここに問題があります:
本番データにアクセスできるサーバーは、インターネットに到達する電子メールを送信できる必要があります。
Dear John Smith,
We received your last payment for $123.45 on 2/4/13. We'd like you to be aware of the following charges:
$12.34 Spuznitz, LLC on 4/1
$43.21 1-800-FLOWERS on 4/2
As always, you can view these transactions in our portal.
Thank you for your business!
明らかに、電子メールの内容の一部は異なります-敬礼(「ジョン・スミス」)、「2013年2月4日の$ 123.45」、およびトランザクションの行が印刷されます。他の部分(「最後の支払いを受け取りました」)は非常に静的です。テキストの静的な部分を一致させ、動的な部分が特定の妥当な制限内にあることを定量化できるようにしたい(たとえば、印刷されるトランザクション行のほとんどが5であることを知っているかもしれません)。
データの漏えいが心配なので、このテンプレートと一致しない電子メールが送信されないようにしたいのです。電子メールを調べて、期待したものとは異なるものを隔離したいと思います。したがって、このテンプレートマッチングを自動化し、マッチングから十分に離れている電子メールメッセージをブロックする必要があります。
だから問題は、どこでフィルタリングメカニズムを探すのかということです。ベイジアンフィルタリングは、特定のメッセージと非特定のコーパスの間の十分な類似性を検証しようとします。これは、逆の問題の一種です。Perlのテンプレートモジュールのようなものは厳密に一致していますが、入力や比較ではなく、出力用です。単純な「diff」タイプの比較では、制限された動的情報をうまく処理できません。
これらの送信メールメッセージが「アヒルのように震える」かどうかを確認するにはどうすればよいですか?