MultipleOutputs を使用して、名前、属性、その他の 3 つのファイルを書き込み、6 つの redcuer を使用しています。これらのファイルを出力ディレクトリに取得します。
attrib-r-00003 name-r-00004 part-r-00000 part-r-00002 part-r-00004 _SUCCESS
_logs other-r-00001 part-r-00001 part-r-00003 part-r-00005
私の質問は、これらのファイルにどのように名前が付けられているかです(なぜ-r-0003がattribファイルに追加されるのか、タスク0003がこのファイルをコンパイルしたのですか?)。私は現在、疑似モードで Hadoop を実行しています。実際のクラスターでは、ファイルを結合する必要がありますか (つまり、attrib には差分リデューサーによる異なるファイルがありますか)? また、出力ファイル名から -r-xxxxx を削除する方法はありますか?
PS 私の Hadoop に関する知識はかなり限られています。