pig スクリプト/ map-reduce ジョブの実行についていくつか質問があります。
pig は実際に map/reduce ジョブの実行を開始する前に、論理計画、物理計画、実行計画を作成することを知っています。コマンドExplain <alias_name>を使用して、論理/物理計画を確認できます。しかし、実行計画を表示するにはどうすればよいでしょうか (計画されているさまざまな map/reduce タスクをリストしていると思います)。Pig の実行過程で、多くのジョブ (map/reduce ペア) が作成されていることがわかります。これらの各ジョブが何を解決するかを理解したい。
スパットとは何かを理解するのが難しいため、作成された計画を理解するために使用できる決定的なガイドはありますか?
入力ファイル ブロックの数を変更することで、マップ ジョブの数を変更できます。リデュース ジョブの数も制御できますか? レデューサーの数を設定するにはどうすればよいですか?
マッパー/リデューサーノードのデフォルトのヒープメモリサイズは? これらを反映するジョブ パラメータはどれですか? -Xmx 1024mオプションでヒープメモリを変更できますか? この方法でヒープ メモリを設定すると、ジョブが失敗することがありました - 提供できる値に制限があるのでしょうか?
どうもありがとう!