問題タブ [reducers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
6647 参照

hadoop - Hadoop のカスタム パーティショナーを理解する

私は今パーティショナーの概念を学んでいます.誰かが私に以下のコードを説明してくれませんか.それは私が理解するのが難しいです.

この taggedKey.getJoinKey().hashCode() % numPartitions は、キーに対して実行するレデューサーをどのように決定しますか?

誰でもこれを説明できますか?

0 投票する
0 に答える
276 参照

hadoop - order by/sort by 句のないハイブ クエリが単一のレデューサーになるのはなぜですか?

order by ステートメントを含まないストリーミング ジョブに関連付けられた単純なクエリがあります。

これは中規模のクラスター (数十台のマシン) で、マッパーの数は 2,000 を超えます。なぜ単一の減速機が必要なのですか?

0 投票する
3 に答える
2249 参照

hadoop - Amazon EMR アプリケーションの Reducer の数を設定する

Amazon EMR で wordcount の例を実行しようとしています。

-1- まず、次のコマンドでクラスターを作成します。

./elastic-mapreduce --create --name "MyTest" --alive

これにより、単一のインスタンスを持つクラスターが作成され、ジョブ ID が返されます。たとえば、j-12NWUOKABCDEF とします。

-2- 次に、次のコマンドを使用してジョブを開始します。

./elastic-mapreduce --jobflow j-12NWUOKABCDEF --jar s3n://mybucket/jar-files/wordcount.jar --main-class abc.WordCount --arg s3n://mybucket/input-data/

--arg s3n://mybucket/output-data/

--arg -Dmapred.reduce.tasks=3

私の WordCount クラスは abc パッケージに属しています。

これは問題なく実行されますが、レデューサーは 1 つしか取得できません。つまり、パラメーター「mapred.reduce.tasks=3」は無視されます。

アプリケーションで使用するレデューサーの数を指定する方法はありますか?

ありがとう、ニーラジ。

0 投票する
2 に答える
338 参照

java - Hadoop マッパーはローカルでのみ実行されますか?

ファイルのブロック全体が 1 台のマシンにあり、デフォルトのレプリケーション ファクターが 1 である状況があります。

このシナリオでは、クラスターで Hadoop を開始すると、ブロックがそのマシンにのみ存在するため、すべてのマッピング タスクが 1 つのマシンでのみ実行されるように感じます。そうですか?ローカル マッパー タスクの実行は制約ですか、それとも単なる優先事項ですか?
はいの場合、ブロックをローカル ディスクにコピーすることにより、マッパー タスクが他のマシンでも実行されるように構成することは可能ですか?

2 番目の質問は、マッパー タスクが 1 台のマシンでのみ実行されている場合でも、マッパーの中間データをコピーすることによって他のすべてのマシンでレデューサーが開始されるというのは正しいですか?

0 投票する
1 に答える
3773 参照

java - Hadoop でのジョブとタスクのスケジューリング

このスライドで遅延公平スケジューリングについて読んだとき、Hadoop の「ジョブ スケジューリング」と「タスク スケジューリング」という用語について少し混乱しました。

次の仮定が間違っている場合は、修正してください。

  1. デフォルト スケジューラ、キャパシティ スケジューラ、公正スケジューラは、複数のジョブがユーザーによってスケジュールされている場合、ジョブ レベルでのみ有効です。システムに単一のジョブしかない場合、それらは何の役割も果たしません。これらのスケジューリング アルゴリズムは、「ジョブ スケジューリング」の基礎を形成します。

  2. 各ジョブには複数の map および reduce タスクを含めることができますが、それらは各マシンにどのように割り当てられますか? 単一のジョブのタスクはどのようにスケジュールされますか? 「タスクスケジューリング」の根拠は?

0 投票する
0 に答える
115 参照

networking - MapReduce ネットワーク帯域幅

マッパー Mapper_i からレデューサー Reducer_j に転送される各 (key_a,value_a) ペアが消費する時間を測定しようとしています。

つまり、 (key_a,value_a) が Mapper_i を離れてから Reducer_j に到達するまでの時間を知りたいですか?

マッパーからレデューサーへのこの転送時間を取得する方法はありますか?

0 投票する
1 に答える
2396 参照

hadoop - Hadoop の全順序パーティショナー

私は totalorderpartitioner の概念にまったく慣れていません。この概念を適用しましたが、グローバルな並べ替えを作成することに成功していません。これは私の入力レコードです

これは私のマッパーです

これは私の減速機です

これは私の仕事関連のコードです

しかし、レコードはソートされていません.これは私の出力です

どこが間違っているのかわかりません.誰かが問題を解決するのを手伝ってくれますか?そして、入力サンプリングが正確にここでどのように機能するか教えてください.事前に感謝します

0 投票する
2 に答える
1032 参照

hadoop - Hadoop - レデューサー番号を 0 に設定しますが、同じファイルに書き込みますか?

私の仕事は計算量が多いので、実際には Hadoop の分散機能のみを使用しています。すべての出力を 1 つのファイルにまとめたいので、レデューサーの数を 1 に設定しました。私のレデューサーは実際には何もしていません...

レデューサーの数を明示的に 0 に設定することで、すべての出力が同じ 1 つの出力ファイルに強制的に書き込まれるようにマッパーで制御する方法を教えてください。ありがとう。

0 投票する
2 に答える
194 参照

hadoop - パーティショナーまたは MultipleOutputs

Partitioner と MultipleOutputs についてご意見をお聞かせください。
次のようなキーを含むファイルがあるとします

2 つのファイルが必要です。1 つは で始まるキーを含むファイル0:で、もう1 つは で始まるキーを含むファイルです1:。どのアプローチを使用する必要がありますか:
1) キーを解析し、getPartition() に対して 0 または 1 を返すカスタム パーティショナーを使用します。
2)キーを解析し、MultipleOutputs.write のパラメーター に対してorを指定することにより、reduce フェーズでMultipleOutputs.writeを使用します。zeroonenamedOutput

どちらの方がよいですか?私にとっては、レデューサーは単一のファイルを処理するため、1) の方が優れています。

0 投票する
1 に答える
2820 参照

hadoop - Hadoop Reducer: Reducer が多数のノードで均等に実行されるようにする方法

リデュース プロセッサが発生する場所がわからないシナリオがあります。

i) 入力テキスト ファイルがあり、1 ~ 4 のバランスの取れた範囲にある 1000 の整数が含まれています。

ii) 各ノードに 12 個のスロットを持つ 4 ノード クラスターがあり、そのうち 4 個がレデューサーとして割り当てられているとします。合計で 16 個のリデュース スロットが得られます。

iii) ドライバーにレデューサーの数を設定しました。

iii)そして最後に、次のパーティショナーメソッドがあるとします

1) 私。各ノードIEで複数のリデューサーを実行するのではなく、各ノードで1つのリデューサーを使用して(他の3つのローカルリデューサーをアイドル状態のままにして)reduceを処理するように強制するにはどうすればよいですかノード 2、3、4 のアイドル状態で 12 スロットがあります。

ii. Hadoop MR はリソースを管理して、「ノード X が最もアイドル状態です。そこでレデューサーを生成します...」

2) キーにスキューがあり、それをグループ化する場合、そのキーに対して複数のレデューサーを生成できますか。たとえば、ランダムな整数を値「4」のシード値に追加し、パーティショナーを使用して 3 つのレデューサーを追加して処理できますか?レデューサー 4、5、6、および 7 の値「4」?

それはスキューに効きますか?