私はヘルプに従いますalexeipabから豚の流出記憶を処理する方法、それは本当にうまくいきます、しかし私は今別の質問があります、同じサンプルコード:
pymt = LOAD 'pymt' USING PigStorage('|') AS ($pymt_schema);
pymt_grp_with_salt = GROUP pymt BY (key,salt)
results_with_salt = FOREACH pymt_grp {
--distinct
mid_set = FILTER pymt BY xxx=='abc';
mid_set_result = DISTINCT mid_set.yyy;
result = COUNT(mid_set_result)
}
pymt_grp = GROUP results_with_salt BY key;
result = FOREACH pymt_grp {
GENERATE SUM(results_with_salt.result); --it is WRONG!!
}
そのグループでは合計を使用できません。これは、塩なしで計算した結果とは大きく異なります。
解決策はありますか?最初にフィルタリングすると、多くのJOINジョブが発生し、パフォーマンスが低下します。