performance - 動作するPigAccumulatorInterface実装の良い例はありますか？

翻译自：https://stackoverflow.com/questions/14924059 2013-02-17T17:46:06.617

1881 次

HDFSから何百万ものレコードを読み取り、それらを強化して、XMLファイルごとに10KレコードのバッチでXMLファイルとして保存する必要があります。

私はアキュムレータインターフェイスを試し、テストのためにpig.accumulative.batchsizeを2に設定しました。

ただし、呼び出されるメソッドは、Accumulatorの「accumulate」メソッドではなく「exec（）」です。

私のUDFクラスの概要は次のとおりです。

public class MyAccUDF extends EvalFunc <Tuple> implements Accumulator <Tuple>{

    public Tuple exec(Tuple input) throws IOException {
        //..
    }

    public void accumulate(Tuple b) throws IOException {
        //...
    }

    public void cleanup() {
        //..
    }

    public Tuple getValue() {
        //..
    }
}

performance - 動作するPigAccumulatorInterface実装の良い例はありますか？

1 に答える 1

Related

Reference