java - 複合キーが変更される、Hadoop Map-Reduce?

Question

Hadoop の学習を開始したばかりで、カスタムパーティショナーとコンパレーターを使用して Hadoop マップ削減プログラムを実行しています。私が直面している問題は、プライマリおよびセカンダリの並べ替えが複合キーで行われていないことです。他の複合キー部分で変更されています。

たとえば、マッパー内に次のキーを作成しています

key1 -> tagA,1 
key2 -> tagA,1 
key3 -> tagA,1
key4 -> tagA,1 
key5 -> tagA,2 
key6 -> tagA,2
key7 -> tagB,1 
key8 -> tagB,1 
key9 -> tagB,1
key10 -> tagB,1 
key11 -> tagB,2 
key12 -> tagB,2

パーティショナーとコンバイナーは次のとおりです

    //Partitioner
public static class TaggedJoiningPartitioner implements Partitioner<Text, Text> {   
    @Override
    public int getPartition(Text key, Text value, int numPartitions) {
        String line = key.toString();
        String tokens[] = line.split(",");
        return (tokens[0].hashCode() & Integer.MAX_VALUE)% numPartitions;
    }
    @Override
    public void configure(JobConf arg0) {
        // TODO Auto-generated method stub //NOT OVERRIDING THIS METHOD
    }
}
//Comparator
public static class TaggedJoiningGroupingComparator extends WritableComparator {

    public TaggedJoiningGroupingComparator() {
        super(Text.class, true);
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        String taggedKey1[] = ((Text)a).toString().split(",");
        String taggedKey2[] = ((Text)b).toString().split(",");
        return taggedKey1[0].compareTo(taggedKey2[0]);
    }
}

レデューサーでは、これらのキーはタグに従って適切にグループ化されていますが、適切にソートされていません。レデューサーのキーの順序と内容は次のとおりです。

//REDUCER 1
key1 -> tagA,1 
key2 -> tagA,1 
key3 -> tagA,1
key5 -> tagA,1 //2 changed by 1 here
key6 -> tagA,1 //2 changed by 1 here
key4 -> tagA,1 

//REDUCER 2
key7 ->  tagB,1 
key11 -> tagB,1 //2 changed by 1 here
key12 -> tagB,1 //2 changed by 1 here
key8 ->  tagB,1 
key9 ->  tagB,1
key10 -> tagB,1

それを解決するために長い間試みましたが、まだ成功していません。

java - 複合キーが変更される、Hadoop Map-Reduce?

1 に答える 1

Related

Reference