HDFSから何百万ものレコードを読み取り、それらを強化して、XMLファイルごとに10KレコードのバッチでXMLファイルとして保存する必要があります。
私はアキュムレータインターフェイスを試し、テストのためにpig.accumulative.batchsizeを2に設定しました。
ただし、呼び出されるメソッドは、Accumulatorの「accumulate」メソッドではなく「exec()」です。
私のUDFクラスの概要は次のとおりです。
public class MyAccUDF extends EvalFunc <Tuple> implements Accumulator <Tuple>{
public Tuple exec(Tuple input) throws IOException {
//..
}
public void accumulate(Tuple b) throws IOException {
//...
}
public void cleanup() {
//..
}
public Tuple getValue() {
//..
}
}