-1

hadoop と mapreduce は初めてです。hadoop Mapreduce でデータを実行する際に問題があります。結果をミリ秒単位で表示したい。Mapreduce ジョブをミリ秒単位で実行する方法はありますか? そうでない場合、完全に分散されたマルチクラスター (5 ~ 6 ノード) で hadoop mapreduce にかかる最小時間はどれくらいですか。hadoop mapreduce で解析するファイルサイズは 50-100Mb 程度 プログラムは Pig で書かれています。

4

2 に答える 2

1

データのアドホックリアルタイムクエリには、ImapalaApache Drill(WIP)を使用します。ドリルはGoogleDremelに基づいています。

HiveジョブはMapReduceに変換されるため、Hiveもバッチ指向であり、リアルタイムではありません。ただし、Hive( 1および2 )のパフォーマンスを改善するために多くの作業が行われています。

于 2013-03-22T14:30:11.283 に答える
0

それは不可能です(私の知る限り)。Hadoop は、そもそもリアルタイムのものではありません。バッチ ジョブに最適です。mapreduce フレームワークは、ジョブを受け入れてセットアップするのに時間がかかりますが、これは避けられません。また、超ハイエンド マシンに Hadoop クラスタをセットアップさせるのは賢明な決定ではないと思います。また、フレームワークは、実際にジョブを開始する前にいくつかのことを行う必要があります。たとえば、データの論理分割を作成します。

于 2013-03-21T20:26:39.130 に答える