1

私は Enron Mail Corpus (CMU ソースからダウンロード) を使用している Dspace のプロジェクトに取り組んでいます。

私の問題は:

  1. 60 万通のメールのコレクション全体を取得し、それらを検索できるリポジトリを生成したい

各メールのメタデータを手動でフィードすることは、数百万単位であるため、実行可能なオプションではありません! Dspace のインポート機能は役に立ちますか? または編集するファイルがありますか?

実行可能で迅速な何かが必要です:システムに大量のメールを供給するにはどうすればよいですか?

  1. 2 番目の質問: コレクション内の添付ファイルをインデックスに登録できますか? つまり、ファイル検索機能のコンテンツを検索できますか?
4

1 に答える 1

1

大量のデータを編集またはインポートする場合は、バッチ メタデータ編集を使用できます。メタデータ値のインポートには最適ですが、ファイルは後で手動で追加する必要があります。詳細については、https://wiki.duraspace.org/display/DSDOC3x/Batch+Metadata+Editing#BatchMetadataEditing-TheCSVFilesを参照してください。

2 番目の質問については、"Filter-media" と呼ばれる、サポートされているファイルをインデックス化するプロセスがあります。Adobe PDF、HTML、テキスト、Microsoft Word、Microsoft Powerpoint をサポートしています。また、Java クラスを作成して、必要に応じて他のフォーマットにインデックスを付けることができます。/bin/dspace filter-media を実行して実行され、cron として追加する必要があります。

于 2014-10-02T06:38:49.587 に答える