0

したがって、基本的にはエンロンの公開メール データセットを解析したいと考えていますが、当時のメールのフォーマットとタイプについては不明です。私は MIME タイプやその他のフォーマットの詳細に慣れていません。したがって、すべてのメールの最初の数行と最後の数行が同じかどうかを知りたいです。

基本的に、メールの本文以外はすべて削除したいと考えています。したがって、行ごとに解析するCメソッドを使用する方が簡単かどうか(私が知っていることはわかりません)、または必要なだけ残すためにすべての電子メールを本質的にクリーンアップしようとするかどうかも知りたいです。私は空白についてあまり気にしませんが、正規表現や字句解析にはあまり熟練していないので、誰かが正規表現の更新に関する良いリファレンスを持っているか、おそらく私が必要とする唯一のルールを破ることができれば、それは素晴らしいことです.

4

1 に答える 1

0

うわー、それはあなたの目的に関する情報がまったくない「...わからない...」がたくさんあります。私が提供できる最善のアドバイスは、RFC-822 を読むことです。http://www.faqs.org/rfcs/rfc822.html

電子メールから意味のある情報を抽出したい場合は、正規表現の解析に取り組む必要があります。正規表現に関する Oreilly の本、またはhttp://www.regular-expressions.info/を読むことをお勧めします。

より的を絞った質問がある場合は、SOが役立つ可能性があります

幸運を

于 2012-04-07T20:54:54.453 に答える