問題タブ [email-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - メール本文を会話に分割する
Python でメール パーサーを作成しており、メール本文から以前のすべてのメール (転送、返信) を抽出する方法を探しています。スクリプトは、できるだけ多くの電子メール クライアント (gmail、outlook、iphone など) をサポートする必要があります。たとえば、ボディが次の場合:
結果は 3 つのエントリを持つ配列である必要があります。各エントリには、電子メール テキストとできるだけ多くのメタデータ (日付、送信者、件名など) が含まれます。
これを達成するための標準的/最新の方法はありますか? さまざまなクライアントからの応答のリストが維持されていますか? 同様の質問を検索しましたが、これまでのところ満足のいく答えはありません。
email - テスト用の大量の HTML メール返信はどこで入手できますか?
HTML メールの返信を解析するライブラリの開発を試みたいと思います。テストのために、さまざまな HTML メールの返信が必要です (さまざまなメール クライアントから、さまざまな言語で)。この種のテスト コンテンツを把握するには、どうすればよいでしょうか?
公開メーリング リストのアーカイブ (Google グループを含む) を見たことがありますが、これらのサービスの多くはテキスト ベースのメールしか許可していません。
何か案は?
java - Java を使用して電子メールのフッターと署名を削除する
こんにちは、メールからフッターを削除する方法を教えてください。メールの本文を保存し、免責事項やフッターなどの他のものを削除するだけです。
java - Java を使用して、引用された返信から電子メールの内容を解析する
メールのテキストに引用または返信を除外する方法を見つけようとしています。Jsoup と parser-callback を使用しました。ただし、電子メールのテキストを確実に除外することはできません
これは私のアプローチですが、前述のように、すべてのケースで機能するとは限りません。
email - mime メールの解析、見通しの問題と相違点
私は parsec と呼ばれる Haskell 解析ライブラリを学習しています。この目的のために、電子メール メッセージを解析する必要があります。仕様を調べたり、さまざまなクライアントからのさまざまなメッセージを比較したり、rfc を読んだりしています。
この演習で必要なのは、"From:" ヘッダーと実際のプレーン テキスト本文を抽出することだけです。現在、すべてのクライアントは、仕様に関して正気の、または少なくとも逸脱していないメッセージを生成しているようです。唯一の違いは見通しです(なぜか驚きません)。
したがって、標準的な方法は、myu の読みによると、境界シーケンスに次のように言わせることです。
マルチパートボディのすべての部分は、この境界シーケンスによって区切られていますよね? 私が間違っている場合は、私を修正してください。パーサーがすべての可能なクライアントで動作することを望みます。
なのでよくあるパターンは
ここで、Outlook によって生成されたメッセージを見ると、別の図が表示されます。ある種のサブ境界を使用していますが、それが標準かどうかわかりませんか? これは見通しの変種です
すると、本体はこのように区切られます
つまり、配列 001 の外側境界と、配列 002 の内側境界があります。では、これは何でしょう? これはある種の Microsoft 独自の MIME 仕様ですか、それとも私が見逃した rfc にありますか? これは解析がより複雑です。