hadoop - サンドボックス - Mapper と Reducer の決定

Question

私はクラウドコンピューティングを利用して、Mapreduce で気象分析用のプロジェクトを作成しました。この目的のために、ラップトップに以下のソフトウェアをインストールしました。

Oracle Virtualbox
HortonWorks サンドボックス

Redhat Linux を選択し、メインメモリとして 2 GB を割り当てました。サンドボックスサイトの Hadoop イメージを使用し、virtualbox を使用してロードしました。私の理解が正しければ、2 GB はシステムから割り当てられ、MapReduce ジョブはローカルマシン自体で実行されます。この点で私は正しいですか？

MapReduce プログラムを作成し、サンドボックスで実行しました。うまくいき、目的の出力が得られました。

私の仕事では、ジョブトラッカーは、8 つのマッパーが使用され、reduce では 1 つのレデューサーが使用されたことを示しました。したがって、8 つのマッパーは基本的に、データを処理するためのマッパーとして使用される 2 GB のメインメモリの 8 つの分割でした。

上記の説明が正しければ、レデューサーが 1 つしか使用されていないのはなぜですか?

マッパーがサンドボックスから来た場合、Amazon の EMR のようなサーバーを持っていますか?

score 0 · Accepted Answer

申し訳ありませんが、あなたが何を尋ねようとしているのか正確にはわかりませんでした。あなたの質問は、質問というより投稿のタイトルのように見えます。

Mapper と Reducer は、のコンポーネントですMapReduce framework。Hortonworks は、カスタム Hadoop ディストリビューションを提供するベンダーの 1 つにすぎません。これらのさまざまな種類の Hadoop には特定の違いがありますが、Mapper と Reducer の作成基準はどこでも同じです。

私の理解が正しければ、2 GB はシステムから割り当てられ、MapReduce ジョブはローカルマシン自体で実行されます。この点で私は正しいですか？

まずおすすめのメモリは4GB。

はい、virtualbox が実行されているマシンから割り当てられます。virtualboxが「この」マシンで実行されている場合、他にどこからリソースを取得しますか? また、割り当てられたメモリは、MR ジョブが実行されている場所とどのような関係がありますか?サンドボックスを使用している場合、それらはサンドボックスで実行されます。

私の仕事では、ジョブトラッカーは 8 つのマッパーが使用され、reduce では 1 つのレデューサーが使用されていることを示しました。したがって、8 つのマッパーは基本的に、データを処理するためのマッパーとして使用される 2 GB のメインメモリの 8 つの分割でした。

8 つのマッパーは、入力データのNOT8 つの分割とメモリの 8 つの分割などを処理するマッパーコードの 8 つのインスタンスでした。

If the mappers are from sandbox, do they have servers like Amazon's EMR?

これは私にとって完全なバウンサーです。言い換えてください。

hadoop - サンドボックス - Mapper と Reducer の決定

2 に答える 2

Related

Reference