0

Inbox をダウンロードし、Pig と Hadoop でメールを処理しています。Pig と Wonderdog を使用て、ElasticSearch でこれらのメールのインデックスを作成しました。

現在、受信トレイの各電子メール アドレスの Web ページを作成して、これらのアドレスから送信されたメッセージを表示しています。

私は2つの方法でこれを行うことができます:

1) Pig でメールアドレスごとにグループ化し、MongoDB (または ElasticSearch) に保存します。

2) facets を使用してメール インデックスからこのリストを返すように ElasticSearch にクエリを実行します

どれが頼りになる答えで、それは何に依存していますか?

4

1 に答える 1

1

オプション 1 - Pig で電子メール アドレス別にグループ化し、MongoDB (または ElasticSearch) に保存します。

結果を事前に計算し、MongoDB または ElasticSearch に保存しています。データが大きく、頻繁に更新されない場合、これは良いことです。

オプション 2 - ファセットを使用して、ElasticSearch にクエリを実行し、メール インデックスからこのリストを返します。

データが頻繁に更新され、小さなデータセットの場合でも、このオプションを使用することをお勧めします。これは、(正しいフィールドでインデックスが作成された) データに対してクエリを実行するとすぐに結果が得られ、前処理に頼る必要がないためです。

于 2012-04-11T19:54:36.247 に答える