JSON形式で到着する大きなデータセットの操作を開始しました。残念ながら、データフィードを提供するサービスは、重要な数の重複レコードを配信します。利点として、各レコードには、64ビットの正の整数(Java long)として格納された一意のID番号があります。
データは週に1回到着し、各配信で約1,000万レコードです。現在の配信内の重複と、以前のバッチにあったレコードを除外する必要があります。
重複排除の問題を攻撃するための力ずくのアプローチは、ID番号をJavaセットにプッシュすることです。Setインターフェースには一意性が必要なため、挿入中に失敗すると重複が示されます。
問題は、レコードをインポートする限り、重複を探すためのより良い方法はありますか?
私はHadoopを使用してデータをマイニングしているので、Hadoopを使用してレコードの重複排除を行う良い方法があれば、それはボーナスになります。