3

AUTO_INCREMENTHadoop の ID に相当する SQL が必要です。

私の削減タスクが新しいアイテムを識別するとき、それらのアイテムには一意の ID を割り当てる必要があります。

  • クラスター全体でアトミック カウンターを共有するにはどうすればよいですか? レポーター カウンターは単なるインクリメント カウンターのようです。getAndIncrement 機能はありません。

  • ジョブの map/reduce フェーズが開始する前にそのカウンターを設定するにはどうすればよいですか?

4

1 に答える 1

2

分散 ID 生成を実行するには、uuid を生成するか、Hadoop クラスターで分散調整を行うことができるApache Zookeeperにある機能を使用できます。免責事項:私はZookeeperを使用したことがないので、質問が求めているように見えるグローバルな連続IDセットを実際に(理論的にも)取得できるかどうかはわかりません。

ただし、UUID の生成にはコストがかかります。生成には時間がかかります。

分散 ID の生成に関する一般的な情報については、この Stack Overflow questionを参照してください。

于 2012-10-27T03:21:10.323 に答える