CDH4 クラスターで pig-0.11.0-cdh4.3.0 を使用しており、一部の Web ログの重複を排除する必要があります。ソリューションのアイデア (SQL で表現) は次のようなものです。
SELECT
T1.browser,
T1.click_type,
T1.referrer,
T1.datetime,
T2.datetime
FROM
My_Table T1
INNER JOIN My_Table T2 ON
T2.browser = T1.browser AND
T2.click_type = T1.click_type AND
T2.referrrer = T1.referrer AND
T2.datetime > T1.datetime AND
T2.datetime <= DATEADD(mi, 1, T1.datetime)
ここから上記を取得しましたSQL find duplicate records occur within 1 minutes of each other . Pig で同様のソリューションを実装できることを望んでいますが、上記の結合で必要な式 (フィールドのみ) を介した JOIN を明らかに Pig がサポートしていないことがわかりました。Pig を使用して 1 分近くのイベントの重複を排除する方法を知っていますか? ありがとう!