問題タブ [email-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 主要な関係を維持しながら解析済みの電子メール データを挿入する PHP スクリプト
私は現在、電子メールを解析し、そのような構造のデータベーステーブルに挿入する PHP スクリプトを完成させているところです -
ユーザー テーブル
- userId - int - auto_increment - PK
- メール - varchar
メールテーブル
- emailId - int - auto_increment - PK
- userId - int - FK
- attachmentId - int - FK
- 本体 - varchar
- 件名 - varchar
アタッチメント表
- attachmentId - int - auto_increment - PK
- attachmentName - varchar
- ファイルタイプ - varchar
- コンテンツ - ミディアムブロブ
- コード - varchar
私の問題は、電子メールを解析した後、外部キーの関係が正しいことを確認するにはどうすればよいかということです。私の最初のアプローチは、実行することだけでした:
しかし、これではメール テーブルの FK リレーションシップが処理されないことに気付きました。各クエリを個別に実行し、生成された Id を再クエリして、新しい Id を関連する FK 行に配置するのが最善の方法ですか? 私がはっきりしていない場合は申し訳ありません。
これを 1 つのテーブルにして、この問題を回避することに欠点はありますか?
php - PHP で MIME エンコードされた電子メールから署名を削除する
imapを使用して pop3 サーバーからメールを読み取り、 PEAR Mimedecodeを使用する mailparse クラスでそれらをデコードしています。
署名を取得する方法、またはメールの本文から署名を削除する方法があるかどうか疑問に思っていました.
ありがとう。
python - Python での「Return-Path:」の解析
Python を使用して、メール ヘッダーを解析し、「return-path」フィールドで電子メール アドレスを取得する最良の方法は何ですか?
PS 私は少し Python n00b で、このコードは AppEngine で実行する必要があります。
python - Pythonで正規表現を使用してメールヘッダーを解析する
私はPythonの初心者で、メールヘッダーからデータを抽出しようとしています。1つのテキストファイルに数千の電子メールメッセージがあり、各メッセージから送信者のアドレス、受信者のアドレス、および日付を抽出して、新しいファイルの1つのセミコロンで送信された行に書き込みます。
これは醜いですが、それは私が思いついたものです:
これが私の'demo_text.txt'です:
出力は次のとおりです。
この出力は、demo_text.txtの「From:」フィールド(24行目)に改行がある場合を除いて問題ないため、「nobody@hotmail.com」がありません。
改行をスキップしてFrom:タグでメールアドレスを見つけるようにコードに指示する方法がわかりません。
より一般的には、このタスクを実行するためのより多くの賢明な方法があると確信しています。誰かが私を正しい方向に向けることができれば、私はそれを感謝します。
php - メールを解析して送信するためのPHPクラス
受信メールをPHPスクリプトにパイプするExim4があります。
このPHPスクリプトはそれを解析し、いくつかのヘッダーを変更し、おそらく次のような情報を追加する必要があります。
このメールはexample.comサービスから送信されました。
(プレーンバージョンとhtmlバージョンの両方)。
私が探しているのは、生の電子メール(ヘッダー+コンテンツ+添付ファイル)から操作するオブジェクトを作成できるPHPクラスです。メールはわかりやすい|| html、単一部分|| マルチパート、Gmailのようななど。
操作が完了すると、変更された電子メールを送信できるようになります。
何かアドバイスしてもらえますか?ありがとう!
Zend_Mailを試しましたが、そのようなタスクを対象としたものではありません。
自分でパーサーを書きたくないので、別の自転車になると確信しています。
拡張機能を使用せず、サーバーでの不要な構成変更を避けたいと思います。
php - メールパーサーを実装して添付ファイルから情報をスクレイピングする最も簡単な方法
xml doc を添付した特定のメール アドレスから、自分の Web サイト アドレスにメールが届きます。この特定のソースから電子メールを受け取るたびに、xml ファイルからデータをスクレイピングできるように、添付ファイルにアクセスする最も簡単な方法は何ですか?
添付ファイルを開くと、必要な情報を取得してデータベースを更新できますが、メールにアクセスして添付ファイルを開く方法がわかりません。
c# - 正規表現を使用した電子メール応答の解析
次のリンクで提供されているソリューションを使用して、電子メールの応答をプログラムで解析しようとしていました: 引用された返信から電子メールの内容を解析する
gmail と Outlook を除いて、ほとんどの場合問題なく動作します。
2013 年 3 月 31 日午前 10 時 57 分、< abc@domain.com> は次のように書いています。
私は正規表現をあまり理解していませんが、次のものは正しく解析されているはずです:
サンプル データ:
ぜひお読みください。\r\n\r\n\r\n2013 年 3 月 31 日午前 10 時 57 分、<\r\n abc@domain.com > は次のように書いています:\r\n\r \n>
期待される結果:
読んでください。
現在の結果:
読んでください。2013 年 3 月 31 日、午前 10 時 57 分に、次のように書いています。
email-parsing - 多言語コンテキストでメールの転送ヘッドと返信ヘッドを一致させる方法
メール コンテンツの処理では、異なるメール クライアントが異なる re および fw ヘッドを送信します。以下を参照してください。
保存と表示のためにメールの内容を分離するには、このヘッダーを認識する必要があります。これらすべての頭をハードコーディングする以外に、他の方法はありますか?
python - 電子メール本文から HTML を解析する方法 - Python
Python で受信メールを解析しようとしています。一部がテキストで一部が HTML のメールを受け取ります。HTML 部分を取得し、HTML でテーブルを見つけたいと考えています。
ビューティフルスープを使ってみました。しかし、次のコードを試すと、bs は最初の "" 部分のみを取得し、すべての HTML 部分を取得するわけではありません:
HTML部分全体に「bs」を使用するにはどうすればよいですか? または、メール本文から HTML テーブルを解析する他の方法はありますか?
特定のキーワードを含む特定の HTML 本文を検索したいので、「bs」が最適なようです。「bs」検索は、テーブル全体を取得し、その中で反復処理を行うことができます。
c# - C# での TIFF 添付ファイルの電子メールの解析
RingCentral と eFax という 2 つの異なるファックス プロバイダーから送信された電子メールから TIFF 添付ファイルを抽出する電子メール パーサーを作成しました。
アプリケーションは、Pop3 を使用して電子メールをテキスト ストリームとして取得し、テキストを解析して、Tiff 画像を表すセクションを識別します。
テキストのそのセクションをバイト配列に変換し、 を使用するBinaryWriter
ことで、ローカル ハード ドライブに TIFF ファイルを作成できます。
問題は、テキストをバイト配列に変換するときに、eFax 電子メールの添付ファイルによって実行時エラーが発生することです。
次のエラーが表示されます。
入力は有効な Base-64 文字列ではありません。非 Base 64 文字、3 つ以上の埋め込み文字、または埋め込み文字の間に非空白文字が含まれているためです。
文字列のエンコード/デコードに関係していると思いますが、さまざまなエンコードの種類を試しましたが、それでもエラーが発生します。
いくつかの追加情報:
- プログラミング言語: C#
- メールホスト: GMail
- メールを自分自身に手動で転送すると、パーサーは機能しますが、元のメールに対しては機能しません。
- GMail で自動転送も試しましたが、うまくいきませんでした。
以下の最初のコメントに返信します。返信ありがとうございます。
TIFF ファイルは、TIFF ファイルの添付ファイルに関連付けられている電子メールからテキストのセクションを取得し、それをバイト配列に変換して、.tiff
ファイル拡張子を付けてファイルを保存することによって作成されます。これは、すべての RingCentral メールで問題なく機能します。たとえば、RingCentral の電子メール セクション ヘッダーは次のようになります。
base64 の Content-Transfer-Encoding 値に注意してください。これは、次の C# 変換コードを使用する理由を説明しています。
_data
プライベート変数で、上記の SaveToFile メソッドで戻り値として使用されます (つまり_data
、 this.Data プロパティ値が使用されたときに返されます)。
次に、eFax (失敗した電子メール) セクション ヘッダーの場合:
それもbase64を示しています。Convert.FromBase64String()
では、メソッド呼び出しは機能しないのでしょうか?
また、パーサーが追加のテキストを取得しているかどうかも確認します。しかし、何かが足りない場合は、ご指摘ください。ありがとう。
最新の更新:
結局のところ、問題はエンコーディングではなく、私のパーサーでした! 添付テキストに追加のヘッダー値を誤って含めてしまいました。それは今働いています。ありがとう。