hadoop - 豚のグループが奇数の順序で動作する理由

翻译自：https://stackoverflow.com/questions/17470722 2013-07-04T12:46:56.937

187 次

Hadoop で、何かをグループ化して順序付けしたい場合に Java を記述すると、グループキーもデフォルトで辞書順でソートされ、すべて 1 つの MR ジョブで実行されるため、別の順序付けジョブを節約できます。

しかし、今は Pig を使用して参加し、風変わりなものを見つけました。

私の入力（test.txt）は次のとおりです。

a  
ab   
abc  
b     
c

私のスクリプトは次のとおりです。

A=load 'test.txt' as c1:chararray;
B=group A by c1;
dump B;

出力は次のとおりです。

(a)   
(b)      
(c)      
(ab)      
(abc)

グループキーの順序が文字列の長さによって異なりますが、アルファベット順である理由.そのように、グループのコンパレータプラグインがないため、別のキー順序ジョブ、合計2つのジョブを実行する必要があります.

グループと注文を一度に解決する方法はありますか? 私は非常に感謝します。

2 に答える 2