メール クライアントを開発するには、できるだけ多くのメールを含む非常に大きな mbox テスト ファイルが必要です。100.000 件以上のメール (10GB 以上) が望ましいです。
パフォーマンスだけでなく、メール フィルターと検索もテストしたいので、現実的なメール データである必要があります。
そのようなものをどこで入手できるかについてのヒントを事前にありがとう。
検索エンジンを使用して.mboxテキスト ファイルを収集できます。たとえば、google で検索するfiletype:mbox pipermail
と大量の .mbox データが返されます。pipermail の代わりにfrom
、検索文字列として機能します。
個々の .mbox ファイルは連結できます。
cat mboxfile1 > mboxfile
echo >> mboxfile
cat mboxfile2 >> mboxfile
ps 非倫理的なのはデータではなく、データをどう扱うかです。倫理的に行動してください!
別のカップルのオプション:
210 GB のメールを含むEnron Email Corpus 。複数の電子メール形式ですが、読みやすいものにする必要があります。
FERC の Western Energy Markets 調査の一環として公開されたエンロンの電子メール データは、EDRM によって業界標準形式に変換されました。このデータ セットは、151 人の管理者をカバーする 493,384 個の添付ファイルを含む 1,227,255 通の電子メールで構成されています。電子メールは、Microsoft PST、IETF MIME、および EDRM XML 形式で提供されます。
Apache Software Foundation パブリック メール アーカイブ(200 GB)
2011 年 7 月 11 日時点で公開されているすべての Apache Software Foundation メール アーカイブのコレクション
このコレクションには、ASF の 80 以上のプロジェクトから公開されているすべての電子メール アーカイブが含まれています。
おそらく、独自のメールボックスを取得して、複数回複製することができます。たとえば、メール アカウントをセットアップし、IMAP を使用して、またはファイル システムを使用してすべてのメールを数回コピーしますが、これは使用しているデータ形式によって異なります。