mongodb - Hadoop は小さなデータに適したソリューションですか?

Question

MongoDB には、map reduce (2 回) を行っている一連のデータがあり、今のところ Mongo の map reduce を使用しますが、将来的にパフォーマンスをスケーリングして改善する方法を考えており、Hadoop について考えています。

Hadoop について私が読んでいるもののほとんどは、メガバイト、おそらく数十万のレコードを扱うときに、テラバイト単位のビッグデータについて語っています。（ただし、これらの多くが同時に実行されている可能性があるため、単一のタスクは小さいですが、合計は大きくなる可能性があります）.

ビッグデータを可能にするのではなく、小さなデータから非常識なパフォーマンスを引き出すことを本当に望んでいます。つまり、MongoDB では数十秒、Hadoop では数秒または 1 秒未満かかる map reduce の結果を取得します。

これは可能ですか？
Hadoop はこれに適していますか?
そうでない場合、これを可能にする他のテクノロジーはありますか?

これが必要な正確な問題の詳細とこれまでの私の解決策は、この質問で見つけることができます: MongoDB 集約を使用したイベントのコレクションからの線形ファンネルは可能ですか?

score 3 · Accepted Answer

これは可能ですか？

番号。データがどれほど小さいかに関係なく、MR ジョブの実行中に常に初期遅延が発生します。これは、入力/出力パスのチェック、分割の作成、マップの作成など、内部で多くのことが発生するために発生します。これは避けられません。

Hadoop はこれに適していますか?

番号。Hadoop がナノまたは数ミリ秒で結果を出すとは期待できません。

そうでない場合、これを可能にする他のテクノロジーはありますか?

本当に高速で、より適切にスケーリングするものが必要な場合は、Stormをご覧ください。

score 0 · Accepted Answer

Hadoop は要件を満たしていません。最初に必要なことは、インフラストラクチャの要件とその管理です。map-reduce を実行するコストは、データが MB 単位の場合、Mongo や他の同様のテクノロジよりも Hadoop の方が高くなります。

さらに、既存の mongoDB インフラストラクチャを拡張することをお勧めします。クエリとドキュメントベースの柔軟性 (簡単なインデックスやデータ検索など) は、Hadoop テクノロジでは簡単に実現できません。

4 に答える 4