したがって、基本的にはエンロンの公開メール データセットを解析したいと考えていますが、当時のメールのフォーマットとタイプについては不明です。私は MIME タイプやその他のフォーマットの詳細に慣れていません。したがって、すべてのメールの最初の数行と最後の数行が同じかどうかを知りたいです。
基本的に、メールの本文以外はすべて削除したいと考えています。したがって、行ごとに解析するCメソッドを使用する方が簡単かどうか(私が知っていることはわかりません)、または必要なだけ残すためにすべての電子メールを本質的にクリーンアップしようとするかどうかも知りたいです。私は空白についてあまり気にしませんが、正規表現や字句解析にはあまり熟練していないので、誰かが正規表現の更新に関する良いリファレンスを持っているか、おそらく私が必要とする唯一のルールを破ることができれば、それは素晴らしいことです.