HDFS にリアルタイムで保存されている、ゆっくりと変化するメタデータがあります。これらの行を各キーの最新の行に凝縮する豚の仕事を書きたいと思います。
たとえば、これらのデータの場合 (わかりやすくするために列ヘッダーが追加されています):
ts meta key
-- ---- ---
1 foo id1
2 que id2
3 que id2
4 foo id1
5 pasa id2
6 pasa id2
7 foo id1
8 pasa id2
9 pasa id2
10 pasa id2
11 pasa id2
12 hombre id2
13 foo id1
14 foo id1
15 hombre id2
16 bar id1
17 bar id1
18 bar id1
19 bar id1
20 bar id1
出力が得られると思います:
15 hombre id2
20 bar id1
Pig Latin の詳細を学び始めたばかりです。Pig または一部のライブラリでこれを行う組み込みの方法はありますか、または UDF の作成を検討する必要がありますか?