こんにちは、一般的に XML ファイルを解析する mapreduce ジョブを作成しました。XML ファイルを解析し、適切に生成されたすべてのキーと値のペアを取得できます。6 つの異なるキーとそれに対応する値があります。そのため、6 つの異なるレデューサーを並行して実行しています。
今私が直面している問題は、レデューサーが2つの異なるキーと値のペアを同じファイルに入れ、残りの4つのキーと値を個々のファイルに入れていることです。つまり、リデューサーからの出力の 6 つのファイルのうち、単一のキーと値のペアを含む 4 つのファイルと、2 つのキーと値のペアを含む 1 つのファイルと、何も持たない 1 つのファイルを取得しています。
Google やさまざまなフォーラムで調査を試みましたが、この問題を解決するにはパーティショナーが必要であるという結論に達しました。私は新しいHadoopなので、誰かがこの問題に光を当てて、これを解決するのを手伝ってくれます.
私は疑似ノードクラスターに取り組んでおり、Java をプログラミング言語として使用しています。ここでコードを共有することはできませんが、問題を簡単に説明しようとしています。
より多くの情報が必要であることをお知らせください。事前に感謝します。