hadoop - MapReduce ジョブの出力ソート順

Question

私の mapreduce ジョブで、リデューサー部分の出力がキーでソートされていることがわかります..

したがって、レデューサーの数を 10 に設定した場合、出力ディレクトリには 10 個のファイルが含まれ、それらの各出力ファイルには並べ替えられたデータが含まれます。

ここに記載している理由は、すべてのファイルのデータがソートされていても、これらのファイル自体はソートされていないためです。たとえば、part-000* ファイルが 0 から始まり、zzzz で終わるシナリオがあります。 Text をキーとして使用します。

ファイル内でもファイルをソートする必要があると想定していました。つまり、ファイル 1 には a があり、最後のファイル部分には 00009 に zzzz または atleaset > a のエントリが必要です。

すべてのアルファベットが均一に分散されたキーを持っていると仮定します。

なぜそのような振る舞いをするのか

score 12 · Accepted Answer

これらの方法を使用して、グローバルにソートされたファイル (基本的に必要なもの) を実現できます。

mapreduce でレデューサーを 1 つだけ使用する (悪い考えです!! これは 1 台のマシンに負荷がかかりすぎます)
カスタムパーティショナーを作成します。partioner は mapreduce でキー空間を分割するクラスです。デフォルトのパーティショナー ( Hashpartioner ) は、キースペースをレデューサーの数に均等に分割します。カスタムパーティショナーの作成については、この例を確認してください。
Hadoop Pig/Hive を使用して並べ替えを行います。

score 1 · Accepted Answer

トータルソート

特定の Key からのすべてのキーと値のペアは、特定の Reducer に到達します。これは、マッパーレベルのパーティショナーを通じて行われます。マッパーレベルのコンバイナーはセミレデューサーとして機能し、特定のキーの値をレデューサーに送信します。HashPartitionerは、レデューサーの数を決定するのに最適なパーティショナーです。

レデューサーの出力は、すべての出力がキーに基づいてソートされた単一のファイルになります。

二次ソート

マップ出力キーのソート方法を定義するために使用されます。Mapper レベルで動作します。この場合、キーとともに値の順序を制御できます。つまり、2 つ以上のフィールド値に対してソートを実行できます。

総順ソートと二次ソートをご覧ください

score 0 · Accepted Answer

Hive order by は単一のレデューサーを使用するため、distribute by/sort by を使用して、ソートされたテーブルから、insert overwrite local from table -- データをファイルに書き込むことができます。

score 0 · Accepted Answer

Q :all the files have sorted data but these files itself are not sorted..

回答:デフォルトでは、(マッパーからの) 中間出力を分割するために、カスタム Hashpartitionerが使用されます。

元：

If the intermediate values are 3,4,5,6,7,8,9,10,11
Then the data will be partitioned into (lets say) Reducer: 
R1{7,4,10}
R2{5,11,8}
R3{9,6,3}

これでフラットファイルは

Part-00000 {4,,7,11}
Part-00001 {5,8,11}
Part-00002 {3,6,9}

値によるソートを探している場合：ここに ans があります

hadoop - MapReduce ジョブの出力ソート順

4 に答える 4

Related

Reference