2

特定のファイルから複数の列をスキャンし、各列の個別の値に一意の ID (インデックス番号) を割り当てる MapReduce ジョブを実行したいと考えています。主な課題は、異なるノードまたは異なる Reducer インスタンスで発生する同じ値に対して同じ ID を共有することです。

現在、一意の ID を共有するために Zookeeper を使用していますが、パフォーマンスに影響があります。同じ値で飼育係への複数回の旅行を避けるために、レデューサーレベルでローカルキャッシュの情報を保持しました。同じことを行うための他のより良いメカニズムがあるかどうかを調べたかったのです。

4

1 に答える 1