Hive と Pig のベンチマークを行った後、Pig の Group By 演算子は Hive のものより大幅に遅いことがわかりました。誰かが同じことを経験したかどうか疑問に思っていましたか?そして、この操作のパフォーマンスを改善するためのヒントを人々が持っているかどうか? (ここの以前の投稿で提案されているように DISTINCT を追加しても役に立ちません。現在、LZO 圧縮を有効にしてベンチマークを再実行しています)。
1 に答える
0
あなたは間違った方法で見ているようです。Group By は何らかの方法でデータをグループ化するだけで、後で何をするかが非常に重要です。Pig でパフォーマンスを分析する場合は、次の点に留意する必要があります。
1) 複数のステートメントを 1 つの MR ジョブにマージすることができるので、ステートメントを見ないで、生成された MR ジョブのパフォーマンスを見てください。
2) パフォーマンスの劇的な違いには理由があるはずです。これは次の場合があります。
2.1 異なる入力形式、Pig と Hive のベンチマーク時のその他の状況。
2.2 何らかの理由でコンバイナーが無効になっている: http://pig.apache.org/docs/r0.9.1/perf.html#When+the+Combiner+is+Used ほとんどの場合、これがボトルネックになっています。
私の経験によれば、Pig/Hive のパフォーマンスに劇的な違いはありません。
于 2013-09-04T11:50:34.740 に答える