hadoop - Pig/MapReduce ジョブ分析の概念の理解が必要

Question

約 1.22 GB のファイルで Pig Script を実行しています。デフォルトのチャンクサイズは 64MB です。4 つのデータノードがあります。出力としての Pig スクリプトは、19 個のファイルを生成します。
Pig スクリプトを実行してジョブトラッカーを表示すると、6 つのジョブが表示されます。

       Jobid           Priority   User              Name          Map % Complete    Map Total   Maps Completed  Reduce % Complete   Reduce Total    Reduces Completed   Job Scheduling Information    Diagnostic Info

job_201207121202_0001   NORMAL    user     PigLatin:Analysis.pig    100.00%             20            20              100.00%              1               1                         NA                   NA
job_201207121202_0002   NORMAL    user     PigLatin:Analysis.pig    100.00%              5            5               100.00%              1               1                         NA                   NA
job_201207121202_0003   NORMAL    user     PigLatin:Analysis.pig    100.00%              2            2               100.00%              1               1                         NA                   NA
job_201207121202_0004   NORMAL    user     PigLatin:Analysis.pig    100.00%              2            2               100.00%              1               1                         NA                   NA
job_201207121202_0005   NORMAL    user     PigLatin:Analysis.pig    100.00%              5            5               100.00%              1               1                         NA                   NA
job_201207121202_0006   NORMAL    user     PigLatin:Analysis.pig    100.00%             5             5               100.00%              1               1                         NA                   NA

私の理解では、入力ファイルのサイズは 1.22 GB、チャンクサイズは 64 MB であるため、ファイルに対して合計 20 個のブロックが作成されます。レプリケーションファクターは 3 です。分割ごとに 1 つのマップジョブがあるため、20 個のマップジョブがあり、job_201207121202_0001 ジョブは上記のリストでそれを示しており、完璧です。しかし、他の 5 つのジョブと完全に他の 19 のマップタスクが表示されるのはなぜですか?
誰でもこれを理解するのを手伝ってくれませんか。1.22GB/64MB ~ 20 だったので、20 個のマップと 1 個のリデュースジョブがあるだけだと思っていました。

私は Pig/Hadoop の初心者です。助けていただければ幸いです。

score 1 · Accepted Answer

Pig は、スクリプトのセマンティクスに応じて、スクリプトを複数の map-reduce ジョブにコンパイルします。大雑把に言えば、ジョインは MR の仕事です。グループは MR ジョブです。注文は 2 つの MR ジョブ (1 つは分布をサンプリングするため) です。MR 境界を生成する演算子は他にもいくつかあります。

score 0 · Accepted Answer

誰もが自信を持って答えられるようにするには、豚のスクリプトを共有する必要がありますが、ほとんどの場合、スクリプトは非常に複雑で、すべてのステージを実行するには 6 つのマップ削減ジョブが必要です。

実行される 2 番目のジョブでは、実際に 20 個のマッパーが実行されていることがわかります (1.22GB / 64MB = 19.52、これには 20 個のマッパーが必要です)。

NORMAL ユーザー PigLatin:Analysis.pig 100.00% 20 20 100.00% 1 1 NA NA job_201207121202_0002

それ以外に、あなたが何をしていたかは誰にもわかりません - 同じスクリプトを異なる入力ファイルで何度も送信しましたか?

score 0 · Accepted Answer

Pig は、MR ジョブを連鎖させるために構築されたシンレイヤーです。

MRジョブの場合は「チャンクサイズ」（技術的にはブロックサイズ）がマッパーの数を決定しますが、ピッグMRの場合はチャンクサイズではなく基本単位です。

データを使用して実行している ETL の種類に応じて、pig はそれを単一または連鎖した複数の MR ジョブのいずれかにマップします。

例: A= LOAD '/input' using PigStorage('|') as (a:chararray) A を '/output' に格納します。この pigscript は、レデューサーが使用されていないマップのみのジョブを生成するだけです。

groupby を使用し、続いて JOIN を使用したスクリプトは、2 つの MR ジョブを生成します。

PIG でサポートされているすべての操作は、MR にマップできます。

加入：1MR
GroupBy : 1 MR
Filter : Mapper または Reducer フェーズで実行できます
ロード : マッパー
Store : Mapper または Reducer
Foreach : Mapper または Reducer

hadoop - Pig/MapReduce ジョブ分析の概念の理解が必要

3 に答える 3

Related

Reference