私は Enron Mail Corpus (CMU ソースからダウンロード) を使用している Dspace のプロジェクトに取り組んでいます。
私の問題は:
- 60 万通のメールのコレクション全体を取得し、それらを検索できるリポジトリを生成したい
各メールのメタデータを手動でフィードすることは、数百万単位であるため、実行可能なオプションではありません! Dspace のインポート機能は役に立ちますか? または編集するファイルがありますか?
実行可能で迅速な何かが必要です:システムに大量のメールを供給するにはどうすればよいですか?
- 2 番目の質問: コレクション内の添付ファイルをインデックスに登録できますか? つまり、ファイル検索機能のコンテンツを検索できますか?