hadoop - 出力ファイルへのデータがマップ削減アーキテクチャに書き込まれるのはいつですか?処理されたレデューサー出力データをレデューサーで使用するにはどうすればよいですか?

Question

Hadoop バージョン:1.0.0 を使用しています

各レデューサー入力キーを処理した後、出力を収集していますが、実際の出力ファイルには書き込まれません。入力キーをさらに処理するために、処理済みの中間出力を使用しようとしています。

その中間データの使用方法を教えてください.mapreduceはいつデータを出力ファイルに書き込みますか?

score 0 · Accepted Answer

あなたが求めているのは、MR パラダイムに反するものです。そして、概念からの逸脱には結果があります。
技術的には、データは OutputFormat に渡され、それを出力にプッシュするのは彼の裁量です。仕事の合間に書いていると思いますが、ご覧になるのが遅くなるかもしれません。
このソリューションには固有の問題がありますが、処理されたデータをレデューサーに外部から蓄積して使用する方が簡単だと思います。十分なキーがある場合、メモリ不足に直面する可能性があります。
2 つの MR ジョブ、またはその他のテクニックを使用してレデューサーをステートレスにするか、少なくとも蓄積できるデータ量を制限することをお勧めします。

hadoop - 出力ファイルへのデータがマップ削減アーキテクチャに書き込まれるのはいつですか?処理されたレデューサー出力データをレデューサーで使用するにはどうすればよいですか?

1 に答える 1

Related

Reference