テーブルの各行(3000万行以上)に一意のIDを生成しようとしています。
- Hadoop の並列性により、連番の使用は明らかに機能しません。
- 組み込み UDF の rand() と hash(rand(),unixtime()) は衝突を生成するようです。
行IDを生成する簡単な方法が必要であり、誰かが解決策を持っているのではないかと思っていました.
- 私の次のステップは、安全なランダム + ホスト IP + 現在時刻をシードとして使用して実際のハッシュ文字列を生成する Java マップ削減ジョブを作成することです。しかし、私はそれを行う前にここで尋ねると思います ;)