Hadoop mapreduce プログラムを使用して単一ファイル内の重複値を削除する方法
出力中に一意の値が必要です
例: ファイル内
行 1: こんにちは、Ashok です
行 2: Hadoop フレームワークの基本
行 3: こんにちは、Ashok です
この例から一意の値のみを出力する必要があります。つまり、1 行目と 3 行目を出力する必要があります... 方法....
質問する
1067 次
1 に答える
8
これはカウントなしの単語カウントです。
これを行う一般的な方法は、行全体でグループ化し、リデューサーでキーのみを出力することです。ここにいくつかの擬似コードがあります:
map(key, value):
emit (value, null)
reducer(key, iterator):
emit (key, null)
ここでは、マッパーからのキーとして値を出力しているだけであることに注意してください。値は null にすることができます (つまり、NullWriteable
または整数などを使用できます)。
レデューサーでは、いくつ見たかは気にせず、キーを出力するだけです。
于 2012-10-20T05:09:13.913 に答える