hadoop - MapReduce ジョブにかかった時間

Question

hadoop と mapreduce は初めてです。hadoop Mapreduce でデータを実行する際に問題があります。結果をミリ秒単位で表示したい。Mapreduce ジョブをミリ秒単位で実行する方法はありますか? そうでない場合、完全に分散されたマルチクラスター (5 ～ 6 ノード) で hadoop mapreduce にかかる最小時間はどれくらいですか。hadoop mapreduce で解析するファイルサイズは 50-100Mb 程度プログラムは Pig で書かれています。

score 1 · Accepted Answer

データのアドホックリアルタイムクエリには、Imapala、Apache Drill（WIP）を使用します。ドリルはGoogleDremelに基づいています。

HiveジョブはMapReduceに変換されるため、Hiveもバッチ指向であり、リアルタイムではありません。ただし、Hive（ 1および2 ）のパフォーマンスを改善するために多くの作業が行われています。

score 0 · Accepted Answer

それは不可能です（私の知る限り）。Hadoop は、そもそもリアルタイムのものではありません。バッチジョブに最適です。mapreduce フレームワークは、ジョブを受け入れてセットアップするのに時間がかかりますが、これは避けられません。また、超ハイエンドマシンに Hadoop クラスタをセットアップさせるのは賢明な決定ではないと思います。また、フレームワークは、実際にジョブを開始する前にいくつかのことを行う必要があります。たとえば、データの論理分割を作成します。

hadoop - MapReduce ジョブにかかった時間

2 に答える 2

Related

Reference