Hadoop の仕事があります。仕事が決まったら、何人かのマッパーを開始します。そして、各マッパーは、part-m-00000、part-m-00001 などのファイルをディスクに書き込みます。私が理解しているように、各マッパーは 1 つのパーツ ファイルを作成します。私は大量のデータを持っているので、複数のマッパーが必要ですが、この出力ファイルの数をどうにかして制御できますか? つまり、hadoop が開始されます。たとえば、10 個のマッパーが起動しますが、パーツ ファイルは 3 つしかないのでしょうか?
この投稿を見つけました How do multiple reducers output only one part file in Hadoop? ただし、古いバージョンの Hadoop ライブラリを使用しています。org.apache.hadoop.mapreduce.* のクラスを使用していますが、org.apache.hadoop.mapred.* のクラスは使用していません。
Hadoop バージョン 0.20 と hadoop-core:1.2.0.jar を使用しています
新しい Hadoop API を使用して、これを行う可能性はありますか?