memory - Apache PIG に関する質問

Question

pig スクリプト/ map-reduce ジョブの実行についていくつか質問があります。

pig は実際に map/reduce ジョブの実行を開始する前に、論理計画、物理計画、実行計画を作成することを知っています。コマンドExplain <alias_name>を使用して、論理/物理計画を確認できます。しかし、実行計画を表示するにはどうすればよいでしょうか (計画されているさまざまな map/reduce タスクをリストしていると思います)。Pig の実行過程で、多くのジョブ (map/reduce ペア) が作成されていることがわかります。これらの各ジョブが何を解決するかを理解したい。
スパットとは何かを理解するのが難しいため、作成された計画を理解するために使用できる決定的なガイドはありますか?
入力ファイルブロックの数を変更することで、マップジョブの数を変更できます。リデュースジョブの数も制御できますか? レデューサーの数を設定するにはどうすればよいですか?
マッパー/リデューサーノードのデフォルトのヒープメモリサイズは? これらを反映するジョブパラメータはどれですか? -Xmx 1024mオプションでヒープメモリを変更できますか? この方法でヒープメモリを設定すると、ジョブが失敗することがありました - 提供できる値に制限があるのでしょうか?

どうもありがとう！

score 2 · Accepted Answer

Explain によって生成されるさまざまな種類の計画があります。「explain」から 3 つのプランすべてを取得するには、ファイルの代わりにディレクトリパスを指定します。
わかりません。
set default_parallel 10削減ジョブの数を 10 に設定します。
Hadoop 設定にある必要があります。

score 2 · Accepted Answer

"Explain(pig command )" ALIAS-NAME は、物理的な計画を説明します (Map reduce ジョブに関して)
エイリアスは MR ジョブでグループ化されます。計画フェーズ自体の間に、すべてのエイリアスが特定の MR にグループ化されていることがわかります。
レデューサーの数を制御するには、 joins 、 groupby を記述するときに「 USING PARALLEL desired_no 」を使用するか、 pig script の開始時に「 set default_parallel desired no 」を使用できます。
これは、実行中の豚がどこにいるかによって異なります。MRv1 の場合: mrv2 に mapred.java.opts -Xmx を設定します: mapred.map.size を設定し、mapred.map.java.opts -Xmx を設定します

2 に答える 2