特定の基準では、マッパーにすべての作業とHDFSへの出力を実行させ、データをレデューサーに送信しないようにします(余分な帯域幅を使用します。間違っている場合は修正してください)。
擬似コードは次のようになります。
def mapper(k,v_list):
for v in v_list:
if criteria:
write to HDFS
else:
emit
私たちが遊ぶことができるのはOutputCollectorだけなので、私は難しいと感じました。私が考える1つのことは、OutputCollectorを拡張し、OutputCollector.collectをオーバーライドして、処理を実行することです。より良い方法はありますか?