hadoop - Hadoop で、実行中のタスクのリデューサーに送信されたキーと値のペアを確認する方法はありますか?

Question

私の Hadoop ジョブの 1 つで、レデューサータスクに供給されるデータの量が非常に不均衡です。たとえば、10 個のレデューサータスクがある場合、そのうち 9 個への入力サイズは 50KB の範囲になり、最後のタスクは 200GB 近くになります。マッパーが単一のキーに対して多数の値を生成していると思われますが、そのキーが何であるかはわかりません。これは古い仕事であり、ソースコードにアクセスすることはできません。ジョブの実行中にマッパーからの出力またはレデューサーへの入力として、キーと値のペアを確認する方法はありますか?

score 1 · Accepted Answer

これを CLI ジョブの実行に追加してみてください。-D mapred.reduce.tasks=0

これにより、リデューサーの数が 0 に設定されます。これにより、マッパーは出力を直接 HDFS にダンプします。ただし、関係なくレデューサーの数を上書きしているコードがある可能性があります...そのため、これは機能しない可能性があります。

これが機能する場合、マッパーの出力が表示されます。

score 0 · Accepted Answer

別の単純な map reduce ジョブを使用して、キーの値の合計をいつでもカウントできます。

hadoop - Hadoop で、実行中のタスクのリデューサーに送信されたキーと値のペアを確認する方法はありますか?

2 に答える 2

Related

Reference