map - hadoop mapreduce プログラムを使用して単一ファイル内の重複値を削除する方法

Question

Hadoop mapreduce プログラムを使用して単一ファイル内の重複値を削除する方法

出力中に一意の値が必要です

例: ファイル内

行 1: こんにちは、Ashok です

行 2: Hadoop フレームワークの基本

行 3: こんにちは、Ashok です

この例から一意の値のみを出力する必要があります。つまり、1 行目と 3 行目を出力する必要があります... 方法....

score 8 · Accepted Answer

これはカウントなしの単語カウントです。

これを行う一般的な方法は、行全体でグループ化し、リデューサーでキーのみを出力することです。ここにいくつかの擬似コードがあります:

map(key, value):
   emit (value, null)

reducer(key, iterator):
   emit (key, null)

ここでは、マッパーからのキーとして値を出力しているだけであることに注意してください。値は null にすることができます (つまり、NullWriteableまたは整数などを使用できます)。

レデューサーでは、いくつ見たかは気にせず、キーを出力するだけです。

map - hadoop mapreduce プログラムを使用して単一ファイル内の重複値を削除する方法

1 に答える 1

Related

Reference