xml - Dspace エンロン検索機能

Question

私は Enron Mail Corpus (CMU ソースからダウンロード) を使用している Dspace のプロジェクトに取り組んでいます。

私の問題は：

60 万通のメールのコレクション全体を取得し、それらを検索できるリポジトリを生成したい

各メールのメタデータを手動でフィードすることは、数百万単位であるため、実行可能なオプションではありません! Dspace のインポート機能は役に立ちますか? または編集するファイルがありますか？

実行可能で迅速な何かが必要です:システムに大量のメールを供給するにはどうすればよいですか?

2 番目の質問: コレクション内の添付ファイルをインデックスに登録できますか? つまり、ファイル検索機能のコンテンツを検索できますか?

score 1 · Accepted Answer

大量のデータを編集またはインポートする場合は、バッチメタデータ編集を使用できます。メタデータ値のインポートには最適ですが、ファイルは後で手動で追加する必要があります。詳細については、https://wiki.duraspace.org/display/DSDOC3x/Batch+Metadata+Editing#BatchMetadataEditing-TheCSVFilesを参照してください。

2 番目の質問については、"Filter-media" と呼ばれる、サポートされているファイルをインデックス化するプロセスがあります。Adobe PDF、HTML、テキスト、Microsoft Word、Microsoft Powerpoint をサポートしています。また、Java クラスを作成して、必要に応じて他のフォーマットにインデックスを付けることができます。/bin/dspace filter-media を実行して実行され、cron として追加する必要があります。

xml - Dspace エンロン検索機能

1 に答える 1

Related

Reference