オンラインでは、正規の単語数マップがウォークスルーを削減する例が非常に多く見られます。k,v のマッパー入力 => k,list(v) の入力を減らすことを理解しています。いくつかの魔法は map reduce によって進行します。mapreduce をより実用的な例に適用する方法がよくわかりません。たとえば、米国のすべての従業員の給与と、州や都市などのその他の詳細を含むファイルがあるとします。mapreduce はどのように機能し、次の列が集計された出力レポートを提供しますか? 州、都市、平均(給与)
SQL では、次のようなクエリでこれを取得できます。
Select state, city, avg(salaries)
From employee_tbl
Group by state, city
上記の結果セットを得るためにどのように作業を削減しますか。ハイブを使用しましたが、その SQL がどのように変換されてマップおよび削減されるのかわかりません。