AUTO_INCREMENTHadoop の ID に相当する SQL が必要です。
私の削減タスクが新しいアイテムを識別するとき、それらのアイテムには一意の ID を割り当てる必要があります。
クラスター全体でアトミック カウンターを共有するにはどうすればよいですか? レポーター カウンターは単なるインクリメント カウンターのようです。getAndIncrement 機能はありません。
ジョブの map/reduce フェーズが開始する前にそのカウンターを設定するにはどうすればよいですか?
AUTO_INCREMENTHadoop の ID に相当する SQL が必要です。
私の削減タスクが新しいアイテムを識別するとき、それらのアイテムには一意の ID を割り当てる必要があります。
クラスター全体でアトミック カウンターを共有するにはどうすればよいですか? レポーター カウンターは単なるインクリメント カウンターのようです。getAndIncrement 機能はありません。
ジョブの map/reduce フェーズが開始する前にそのカウンターを設定するにはどうすればよいですか?
分散 ID 生成を実行するには、uuid を生成するか、Hadoop クラスターで分散調整を行うことができるApache Zookeeperにある機能を使用できます。免責事項:私はZookeeperを使用したことがないので、質問が求めているように見えるグローバルな連続IDセットを実際に(理論的にも)取得できるかどうかはわかりません。
ただし、UUID の生成にはコストがかかります。生成には時間がかかります。
分散 ID の生成に関する一般的な情報については、この Stack Overflow questionを参照してください。