Hadoop バージョン:1.0.0 を使用しています
各レデューサー入力キーを処理した後、出力を収集していますが、実際の出力ファイルには書き込まれません。入力キーをさらに処理するために、処理済みの中間出力を使用しようとしています。
その中間データの使用方法を教えてください.mapreduceはいつデータを出力ファイルに書き込みますか?
あなたが求めているのは、MR パラダイムに反するものです。そして、概念からの逸脱には結果があります。
技術的には、データは OutputFormat に渡され、それを出力にプッシュするのは彼の裁量です。仕事の合間に書いていると思いますが、ご覧になるのが遅くなるかもしれません。
このソリューションには固有の問題がありますが、処理されたデータをレデューサーに外部から蓄積して使用する方が簡単だと思います。十分なキーがある場合、メモリ不足に直面する可能性があります。
2 つの MR ジョブ、またはその他のテクニックを使用してレデューサーをステートレスにするか、少なくとも蓄積できるデータ量を制限することをお勧めします。