4 年以上の通信を含む一連の大規模な個々の .pst ファイルに対してテキスト マイニングを実行することを検討しています。
最初は、ヘッダー情報を抽出してソーシャル ネットワークを識別したいと考えていますが、最終的には、キーワードに基づいて電子メールを分類するか、さらなる分析をサポートする構造化された出力を作成したいと考えています。
どこから始めればよいか、誰か提案はありますか?
4 年以上の通信を含む一連の大規模な個々の .pst ファイルに対してテキスト マイニングを実行することを検討しています。
最初は、ヘッダー情報を抽出してソーシャル ネットワークを識別したいと考えていますが、最終的には、キーワードに基づいて電子メールを分類するか、さらなる分析をサポートする構造化された出力を作成したいと考えています。
どこから始めればよいか、誰か提案はありますか?
公開されているEnron Email Datasetで行われた調査を確認する必要があります-> ページには興味深い論文へのリンクがあります