私のユースケースでは、不良品を見つける必要があります...たとえば、hdfsに良品/不良品とマークされた数百万の商品の製品リストがあるとします....不良品の最初の10件の一致を見つけて、停止します。
これを行うためにカウンターを使用することを考えていましたが、カウンターはすべてタスクトラッカーレベルにあるようです...したがって、すべてのタスクトラッカーは、ジョブが完了するまで実際には集約されない独自のカウンターのコピーを維持します。したがって、1つのスプリットのマップジョブで実行されているカウンターは、別のマップがすでに10個のアイテムを検出したかどうかを認識しません。
これを解決する方法について何かアイデアはありますか?