hadoop - ハイブで一意のIDを生成する

Question

テーブルの各行（3000万行以上）に一意のIDを生成しようとしています。

行IDを生成する簡単な方法が必要であり、誰かが解決策を持っているのではないかと思っていました.

私の次のステップは、安全なランダム + ホスト IP + 現在時刻をシードとして使用して実際のハッシュ文字列を生成する Java マップ削減ジョブを作成することです。しかし、私はそれを行う前にここで尋ねると思います ;)

score 7 · Accepted Answer

これがすべて役立つかどうかはわかりませんが、ここに行きます...

ネイティブの MapReduce 類似物を考えてみましょう。入力データセットがテキストベースであると仮定すると、入力 Mapper のキー (したがって一意の ID) は、各行のファイル名にそのバイトオフセットを加えたものになります。

データを Hive にロードするときに、この情報を含む追加の「列」を作成できれば、rowID を無料で取得できます。意味的には無意味ですが、上記のアプローチも同様です。

score 2 · Accepted Answer

Reflect("java.util.UUID", "randomUUID")

もう一方に投票できませんでした。純粋なバイナリバージョンが必要だったので、これを使用しました。

unhex(regexp_replace(reflect('java.util.UUID','randomUUID'), '-', ''))

score 1 · Accepted Answer

すべての Map タスクのカウンターを保持し、JobID() (MR API から取得) + カウンターの現在の値の連結を行の行 ID として作成するカスタム Mapper を記述します。次の行を調べる前に、カウンターをインクリメントします。

8 に答える 8