タイトルが言ったように、map-reduce に関するタスク デザインがあります。
考えた結果、部分的なデータ (おそらく 10% のデータ) のみをレデューサーに送信する必要があり、残りのデータは HDFS に直接出力するだけでよいと考えました。最後に、マッパーとリデューサーからのこれら 2 つの出力ファイルを結合するだけです (この合計データについて、統合されたファイルまたはディレクトリを取得する必要があります)。これを行うことで、このタスクの実行にかかる帯域幅のコストを削減できると思います。
それで、私の考えは実行できますか?(マッパーから HDFS に直接出力する方法は知っていますが、これには HDFS への出力とレデューサーへのデータの送信の両方のマッパーが必要です)