MapReduce ジョブによって生成される一時データ用に未使用のままにしておく必要がある HDFS スペースの量に関する一般的な公式またはベスト プラクティスの見積もりはありますか? Cloudera や MapR などのさまざまなベンダーでは、これはどのように変化しますか? Pig スクリプトを微調整しているときに、クラスターを 20 GB から 60 GB に変更したり、小規模なテスト ジョブに戻したりするジョブがいくつかあります。クラスター計画についてこの質問をしています。
この決定に入る要因は何ですか?レデューサーの数は、生成される一時データの量、ジョブの特殊性に影響を与えると思います (たとえば、20 個のステートメントを含む Pig スクリプトがある場合、一時データが削除されていないことに気付きました)。 20 個のステートメントがすべて実行されるまで; 一時データを最小限に抑えたい場合は、20 個のステートメントを 3 つのスクリプト ファイルに分割し、それぞれを連続して実行する必要があります)、およびその他の要因。