Pig の Multiquery Optimizer が期待どおりに機能しないという問題が発生しています。
私が理解したように、以下のスクリプトは 1 つの MR ジョブとして実行する必要がありますが、クラスターでは 2 つのジョブとして実行されます。マルチクエリ最適化はデフォルトでオンになっているはずですが、ここで何か不足していますか? グループを「フィルター」ステートメントで置き換えると、1 つの MR ジョブとして機能します。
data = LOAD 'input' AS (a:chararray, b:int, c:int);
A = GROUP data BY b;
B = GROUP data BY c;
STORE A INTO 'output1';
STORE B INTO 'output2';
CDH パックの pig 0.1.0 と Hadoop 2.0.0 を使用しています。