1

HDFSから何百万ものレコードを読み取り、それらを強化して、XMLファイルごとに10KレコードのバッチでXMLファイルとして保存する必要があります。

私はアキュムレータインターフェイスを試し、テストのためにpig.accumulative.batchsizeを2に設定しました。

ただし、呼び出されるメソッドは、Accumulatorの「accumulate」メソッドではなく「exec()」です。

私のUDFクラスの概要は次のとおりです。

public class MyAccUDF extends EvalFunc <Tuple> implements Accumulator <Tuple>{

    public Tuple exec(Tuple input) throws IOException {
        //..
    }

    public void accumulate(Tuple b) throws IOException {
        //...
    }

    public void cleanup() {
        //..
    }

    public Tuple getValue() {
        //..
    }
}
4

1 に答える 1