1000万行を超える大きなファイルがあります。MapReduceを使用して重複した行を取得したい。どうすればこの問題を解決できますか?手伝ってくれてありがとう
質問する
2542 次
1 に答える
5
MapReduceのデフォルトの動作は、共通のキーに基づいて値をグループ化することであるという事実を利用する必要があります。
したがって、必要な基本的な手順は次のとおりです。
- おそらくTextInputFormatのようなものを使用して、ファイルの各行をマッパーに読み込みます。
- 出力キー(テキストオブジェクト)を各行の値に設定します。値の内容は実際には重要ではありません。必要に応じて、NullWritableに設定できます。
- リデュースチェックで、キーごとにグループ化された値の数を確認します。複数の値がある場合は、重複していることがわかります。
- 重複する値が必要な場合は、複数の値を持つキーを書き出します。
于 2012-07-31T02:45:59.590 に答える