私はクラウド コンピューティングを利用して、Mapreduce で気象分析用のプロジェクトを作成しました。この目的のために、ラップトップに以下のソフトウェアをインストールしました。
- Oracle Virtualbox
- HortonWorks サンドボックス
Redhat Linux を選択し、メイン メモリとして 2 GB を割り当てました。サンドボックス サイトの Hadoop イメージを使用し、virtualbox を使用してロードしました。私の理解が正しければ、2 GB はシステムから割り当てられ、MapReduce ジョブはローカル マシン自体で実行されます。この点で私は正しいですか?
MapReduce プログラムを作成し、サンドボックスで実行しました。うまくいき、目的の出力が得られました。
- 私の仕事では、ジョブ トラッカーは、8 つのマッパーが使用され、reduce では 1 つのレデューサーが使用されたことを示しました。したがって、8 つのマッパーは基本的に、データを処理するためのマッパーとして使用される 2 GB のメイン メモリの 8 つの分割でした。
上記の説明が正しければ、レデューサーが 1 つしか使用されていないのはなぜですか?
マッパーがサンドボックスから来た場合、Amazon の EMR のようなサーバーを持っていますか?