hadoop - Pig: 遅い Group By 演算子

Question

Hive と Pig のベンチマークを行った後、Pig の Group By 演算子は Hive のものより大幅に遅いことがわかりました。誰かが同じことを経験したかどうか疑問に思っていましたか？そして、この操作のパフォーマンスを改善するためのヒントを人々が持っているかどうか? (ここの以前の投稿で提案されているように DISTINCT を追加しても役に立ちません。現在、LZO 圧縮を有効にしてベンチマークを再実行しています)。

score 0 · Accepted Answer

あなたは間違った方法で見ているようです。Group By は何らかの方法でデータをグループ化するだけで、後で何をするかが非常に重要です。Pig でパフォーマンスを分析する場合は、次の点に留意する必要があります。

1) 複数のステートメントを 1 つの MR ジョブにマージすることができるので、ステートメントを見ないで、生成された MR ジョブのパフォーマンスを見てください。

2) パフォーマンスの劇的な違いには理由があるはずです。これは次の場合があります。

2.1 異なる入力形式、Pig と Hive のベンチマーク時のその他の状況。

2.2 何らかの理由でコンバイナーが無効になっている: http://pig.apache.org/docs/r0.9.1/perf.html#When+the+Combiner+is+Used ほとんどの場合、これがボトルネックになっています。

私の経験によれば、Pig/Hive のパフォーマンスに劇的な違いはありません。

hadoop - Pig: 遅い Group By 演算子

1 に答える 1

Related

Reference