私はPigをまったく使用したことがなく、問題が発生しています。
データのリストがあり、重複を削除したい。ただし、重複は、同じユーザー名を持ち、同じしきい値内のアクセス時間を持っていることによって定義されるという問題があります。例えば:
A:[ユーザー1、10]
B:[ユーザー1、20]
C:[ユーザー1、11]
D:[ユーザー2、10]
しきい値が2の場合、AとCは重複として識別される必要があります。Pigでこれを行うにはどうすればよいですか?現在、UDFとDISTINCTを組み合わせて使用する必要があるようですが、「重複」を何として定義するかをDISTINCTに伝える方法がわかりません。
ありがとう!