0

私はクラウド コンピューティングを利用して、Mapreduce で気象分析用のプロジェクトを作成しました。この目的のために、ラップトップに以下のソフトウェアをインストールしました。

  • Oracle Virtualbox
  • HortonWorks サンドボックス

Redhat Linux を選択し、メイン メモリとして 2 GB を割り当てました。サンドボックス サイトの Hadoop イメージを使用し、virtualbox を使用してロードしました。私の理解が正しければ、2 GB はシステムから割り当てられ、MapReduce ジョブはローカル マシン自体で実行されます。この点で私は正しいですか?

MapReduce プログラムを作成し、サンドボックスで実行しました。うまくいき、目的の出力が得られました。

  • 私の仕事では、ジョブ トラッカーは、8 つのマッパーが使用され、reduce では 1 つのレデューサーが使用されたことを示しました。したがって、8 つのマッパーは基本的に、データを処理するためのマッパーとして使用される 2 GB のメイン メモリの 8 つの分割でした。

上記の説明が正しければ、レデューサーが 1 つしか使用されていないのはなぜですか?

マッパーがサンドボックスから来た場合、Amazon の EMR のようなサーバーを持っていますか?

4

2 に答える 2

0

申し訳ありませんが、あなたが何を尋ねようとしているのか正確にはわかりませんでした。あなたの質問は、質問というより投稿のタイトルのように見えます。

Mapper と Reducer は、 のコンポーネントですMapReduce framework。Hortonworks は、カスタム Hadoop ディストリビューションを提供するベンダーの 1 つにすぎません。これらのさまざまな種類の Hadoop には特定の違いがありますが、Mapper と Reducer の作成基準はどこでも同じです。

私の理解が正しければ、2 GB はシステムから割り当てられ、MapReduce ジョブはローカル マシン自体で実行されます。この点で私は正しいですか?

まずおすすめのメモリは4GB

はい、virtualbox が実行されているマシンから割り当てられます。virtualboxが「この」マシンで実行されている場合、他にどこからリソースを取得しますか? また、割り当てられたメモリは、MR ジョブが実行されている場所とどのような関係がありますか?サンドボックスを使用している場合、それらはサンドボックスで実行されます。

私の仕事では、ジョブ トラッカーは 8 つのマッパーが使用され、reduce では 1 つのレデューサーが使用されていることを示しました。したがって、8 つのマッパーは基本的に、データを処理するためのマッパーとして使用される 2 GB のメイン メモリの 8 つの分割でした。

8 つのマッパーは、入力データのNOT8 つの分割とメモリの 8 つの分割などを処理するマッパー コードの 8 つのインスタンスでした。

If the mappers are from sandbox, do they have servers like Amazon's EMR?

これは私にとって完全なバウンサーです。言い換えてください。

于 2013-07-05T04:08:13.983 に答える