標準的な豚のワードカウントの例では、単語ごとにグループ化すると多くの (多くの) 要素を含むバッグになる可能性があるという条件を最適化するために、人々がどのようにアプローチしているかに興味があります。
例えば:
A = load 'input.txt';
B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;
C = group B by word;
D = foreach C generate COUNT(B), group;
行 C で、入力ファイルに 10 億回出現する "the" などの単語がある場合、処理中にレデューサーが非常に長時間ハングする可能性があります。これを最適化するにはどうすればよいでしょうか?