hadoop - Hadoop の複数のレデューサーから単一のファイルに書き込む

Question

Hadoop を使用して Kmeans を実行しようとしています。Reducer の cleanup メソッドで計算されたクラスターの重心をいくつかのファイルに保存したいと思いますcentroids.txt。ここで、複数のレデューサーのクリーンアップメソッドが同時に開始され、それらすべてが同時にこのファイルに書き込もうとするとどうなるかを知りたいと思います。内部で処理されますか？そうでない場合、このタスクを同期する方法はありますか?

これはレデューサーの私の出力ファイルではないことに注意してください。これは、重心を追跡するために私が維持している追加のファイルです。これを行うために、レデューサーのクリーンアップメソッドから BufferedWriter を使用しています。

score 0 · Accepted Answer

重心は比較的少ないので、Zookeeper に書き込むことができます。読み取り/書き込みの負荷が高い場合は、おそらく HBase が必要になるでしょう (ここでも使用できますが、やり過ぎです)。

Mahoutのように、Hadoop にはいくつかの k-means 実装があることにも注意してください。これらの実装の一部は、BSP を使用するApache Hamaやインメモリで実行されるSparkなどの map/reduce よりも効率的です。

hadoop - Hadoop の複数のレデューサーから単一のファイルに書き込む

3 に答える 3

Related

Reference