hadoop - ストリーミングによって HDFS のデータの探索を高速化するにはどうすればよいですか?

Question

hdfs から抽出したいフィールドがいくつかあります。

現在、私はやっていhadoop fs -text /path/to/20120903/*-* 2>/dev/null | awk -F '\t' '{ print $16 }' | sort | uniq > users-0903ます。

どうすればこれをスピードアップできますか (0904、0905 で実行する必要があり、これには時間がかかります)。

Hadoop ストリーミングをいくつか試みましたが、提供したスクリプトのほとんどが気に入らなかったようで、断念しました。ストリーミングを使用してこのタスクをどのように試みますか?

score 2 · Accepted Answer

Hadoopストリーミングを使用してこれを行う簡単な方法は次のとおりです。

hadoop jar hadoop-streaming.jar -input /path/to/2012093 -output /path/to/output-0903 -mapper "awk -F '\t' '{print \$16}'" -reducer 'uniq'

またはよりよく書かれています：

hadoop jar hadoop-streaming.jar \
  -input /path/to/2012093 \
  -output /path/to/output-0903 \
  -mapper "awk -F '\t' '{print \$16}'"\
  -reducer 'uniq'

マッパーは、タブ間の16番目の単語を値のないキーとして出力します。その後、シャッフル/ソート中にソートされ、への呼び出しuniqは、キーの繰り返しである各キー/値のペアを取得します。これらは、によって1つのコピーに削減されuniqます。

hadoop - ストリーミングによって HDFS のデータの探索を高速化するにはどうすればよいですか?

1 に答える 1

Related

Reference