9

私は現在、特定のトピック (= メーリング リスト) への大量の電子メールを格納するアプリケーション用の NOSQL データベースを選択しています。それぞれに膨大な数のメールがあります。この分野のアマチュアとして、ドキュメントベースの MongoDb とグラフ指向の Neo4j のどちらを選ぶべきかわかりません。これは、write once, read many タイプに似ています。

Neo4j の事実: 1. メールは基本的にグラフです。各メールはノードであり、一方が他方に返信します (= エッジ)。2. グラフは非常に深くなる可能性があり、1 つの電子メールに多数の応答が含まれる場合があります。3. グラフで一部のメールを並べ替える必要がある場合があります (本当に必要な場合は順序を整理するため)。

MongoDb の事実: 1. ユーザーは、パラメータ ベースのクエリを検索したい場合があります。たとえば、ユーザー X からのすべての電子メールです。 2. 電子メールは非常に大きくなる可能性があります。3. ドキュメントがよりシンプルに見えます。

どこに属するかわからないという事実: 親を検索して、電子メールがどこからテキストをコピーしたか (電子メールが返信している特定のテキスト) を確認するとよい場合があります。

誰か助けてくれませんか?

編集:とにかく、私は他のnosqlデータベースにもオープンです。

4

1 に答える 1

2

おそらく、このブログ投稿があなたの決定を導くのに役立つでしょう: http://soloso.blogspot.com/2011/07/getting-enron-mail-database-into.html

一番下の補遺領域に注意してください。@rit は元のコードを拡張し、S3 でコーパスのダンプをホストしています。

これにより、MongoDB 環境でかなりの実験を行うことができるはずです。

ブライアン

于 2013-02-10T06:48:24.030 に答える