python - 公開データセットからの大量の電子メール、特に Python を使用した 90 年代後半または 2000 年代初頭の電子メールを解析しようとしています。

Question

したがって、基本的にはエンロンの公開メールデータセットを解析したいと考えていますが、当時のメールのフォーマットとタイプについては不明です。私は MIME タイプやその他のフォーマットの詳細に慣れていません。したがって、すべてのメールの最初の数行と最後の数行が同じかどうかを知りたいです。

基本的に、メールの本文以外はすべて削除したいと考えています。したがって、行ごとに解析するCメソッドを使用する方が簡単かどうか（私が知っていることはわかりません）、または必要なだけ残すためにすべての電子メールを本質的にクリーンアップしようとするかどうかも知りたいです。私は空白についてあまり気にしませんが、正規表現や字句解析にはあまり熟練していないので、誰かが正規表現の更新に関する良いリファレンスを持っているか、おそらく私が必要とする唯一のルールを破ることができれば、それは素晴らしいことです.

score 0 · Accepted Answer

うわー、それはあなたの目的に関する情報がまったくない「...わからない...」がたくさんあります。私が提供できる最善のアドバイスは、RFC-822 を読むことです。http://www.faqs.org/rfcs/rfc822.html

電子メールから意味のある情報を抽出したい場合は、正規表現の解析に取り組む必要があります。正規表現に関する Oreilly の本、またはhttp://www.regular-expressions.info/を読むことをお勧めします。

より的を絞った質問がある場合は、SOが役立つ可能性があります

幸運を

python - 公開データセットからの大量の電子メール、特に Python を使用した 90 年代後半または 2000 年代初頭の電子メールを解析しようとしています。

1 に答える 1

Related

Reference