3

1000万行を超える大きなファイルがあります。MapReduceを使用して重複した行を取得したい。どうすればこの問題を解決できますか?手伝ってくれてありがとう

4

1 に答える 1

5

MapReduceのデフォルトの動作は、共通のキーに基づいて値をグループ化することであるという事実を利用する必要があります。

したがって、必要な基本的な手順は次のとおりです。

  1. おそらくTextInputFormatのようなものを使用して、ファイルの各行をマッパーに読み込みます。
  2. 出力キー(テキストオブジェクト)を各行の値に設定します。値の内容は実際には重要ではありません。必要に応じて、NullWritableに設定できます。
  3. リデュースチェックで、キーごとにグループ化された値の数を確認します。複数の値がある場合は、重複していることがわかります。
  4. 重複する値が必要な場合は、複数の値を持つキーを書き出します。
于 2012-07-31T02:45:59.590 に答える