私は毎日PIG変換を行います(毎日新しいデータ)。そして、毎日取得するデータの一意のキーを生成する必要があります。最善のアプローチは何ですか?tomarow のランクを実行すると、今日のランクが上書きされますか?
1 に答える
0
ランキングは、開始するたびに 1 から始まります。1 日ごとに一意のデータを生成する場合は、concat(rank + date) で datafu ハッシュ メソッドを使用することをお勧めします。代理キーとして使用できる一意のハッシュが得られます。
REGISTER datafu-1.2.0.jar
DEFINE SHA datafu.pig.hash.SHA();
S1 = LOAD 'surrogate_hash' USING PigStorage('|') AS (c1:chararray,date:chararray,c3:chararray);
S2 = RANK S1;
S3 = FOREACH S2 GENERATE SHA((chararray)CONCAT((chararray)rank_S1,date)),c1,date,c3;
dump S3;
于 2014-04-02T23:55:28.523 に答える