merge - MapReduceを使用して大きなファイルで重複レコードを取得する

翻译自：https://stackoverflow.com/questions/11732333 2012-07-31T02:36:23.193

2542 次

3

1000万行を超える大きなファイルがあります。MapReduceを使用して重複した行を取得したい。どうすればこの問題を解決できますか？手伝ってくれてありがとう

1 に答える 1

5

MapReduceのデフォルトの動作は、共通のキーに基づいて値をグループ化することであるという事実を利用する必要があります。

したがって、必要な基本的な手順は次のとおりです。

おそらくTextInputFormatのようなものを使用して、ファイルの各行をマッパーに読み込みます。
出力キー（テキストオブジェクト）を各行の値に設定します。値の内容は実際には重要ではありません。必要に応じて、NullWritableに設定できます。
リデュースチェックで、キーごとにグループ化された値の数を確認します。複数の値がある場合は、重複していることがわかります。
重複する値が必要な場合は、複数の値を持つキーを書き出します。

于 2012-07-31T02:45:59.590 に答える