問題タブ [combiners]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mapreduce - HBase MapReduceはコンバイナーステージをサポートしていますか?もしそうなら、どのように?
Hadoop map reduceは、コンバイナーステージをサポートします。ただし、HBaseMapReduceパッケージに同様の機能が見つかりません。それは存在しますか?
hadoop - Hadoop マッパーは一意のキーを発行します。マップごとにレデューサーを実行できますか?
私のマッパーは「一意のキー」と「非常に大きな値」のペアを出力します。
私のレデューサーは、キーが一意であることを知りません。したがって、リデューサーはすべてのマッパーが完了するまで待機します。
コンバイナーを使用しようとしましたが、レデューサーが非常に複雑であるため、簡単な解決策ではありません。
私の質問は、マップごとにレデューサーを実行するにはどうすればよいですか? コンバイナーを使わずに。
hadoop - Hadoopの演算順序
yahooのhadoopチュートリアルにある添付の画像によると、操作の順序は、マップ>結合>パーティションであり、その後にreduceが続く必要があります。
これが、マップ操作によって送信されるキーの例です。
同じタイプのキーが100個あるとすると、これは次のように組み合わせる必要があります。
次に、最初のパイプの前の値でキーを分割したいと思います(|) http://hadoop.apache.org/common/docs/r0.20.2/streaming.html#A+Useful+Partitioner+Class+%28secondary + sort%2C + the + -partitioner + org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner + option%29
これが私のストリーミングコマンドです
これは私が得るエラーです
コンバイナーの前にパーティショナーが実行されているようです。何かご意見は?
hadoop - Amazon Elastic MapReduce ワークフローに「結合」ステップを追加することはできますか?
Hadoop wiki で言及されている結合ステップについて言及しています。AWS ドキュメントでそれへの参照を見つけることができませんでした。この手順を利用したいと思います。
hadoop - Hadoop コンバイナーのソート フェーズ
指定されたコンバイナーで MapReduce ジョブを実行する場合、コンバイナーはソート段階で実行されますか? スピルごとにコンバイナーがマッパー出力で実行されることは理解していますが、マージソートの中間ステップで実行することも有益であるように思われます。ここでは、ソートのいくつかの段階で、同等のキーのマッパー出力がある時点でメモリに保持されていると想定しています。
これが現在発生していない場合、特定の理由があるのでしょうか、それとも実装されていないだけですか?
前もって感謝します!
hadoop - Hadoopストリーミング用のコンバイナーハック
現在のバージョンのhadoop-streamingには、コンバイナー用のJavaクラスが必要ですが、次のようなハックを使用できることをどこかで読みました。
ただし、これは機能していないようです。私は何が間違っているのですか?
hadoop - MapReduce では、結合ステージの前にすべてのマッパーが終了する必要があります
私は最近、結果を結合ステージに渡す前にすべてのマッパーを完了する必要があるジョブを実行する必要がありました (処理されたファイルの構造が原因でした)。この機能は、以下を構成することでレデューサーで利用できます -
コンバインステージの同様の構成は見つかりませんでした。最終的に、ジョブを 2 つの部分に分割し、コンバイン ステージがレデューサーとして機能し、元の reduce がジョブ #2 に渡されました (mapper2 はデータを変更せずに渡すだけです)。
私は疑問に思っていました-結合する前に100%のマップ完了を構成するのを逃した方法はありますか? ありがとう。
java - テキスト用のHadoopコンバイナークラス
私はまだHadoopコンバイナークラスをいつ使用するかについて直感をつかもうとしています(いくつかの記事を見ましたが、それらは私の状況では特に役に立ちませんでした)。
私の質問は、ペアの値がTextクラスの場合、コンバイナークラスを使用するのが適切ですか?たとえば、マッパーから次の出力があるとします。
ここでコンバイナークラスを次のように適用できますか?
レデューサーに到達する前に?
hadoop - mapreduce ジョブの「Combiner」クラス
コンバイナーは、マッパーの後、リデューサーの前に実行され、特定のノードのマッパー インスタンスによって発行されたすべてのデータを入力として受け取ります。次に、Reducer に出力を発行します。
また、reduce 関数が可換かつ結合的である場合は、Combiner として使用できます。
私の質問は、この状況で「交換可能かつ結合的」というフレーズはどういう意味ですか?
hadoop - 部分集約とコンバイナーはどちらが速いですか?
カスケード/スカルディングがマップ側の評価を最適化する方法についての通知があります 。彼らはいわゆる部分集計を使用しています。コンバイナーよりも実際に良いアプローチですか?いくつかの一般的な Hadoop タスク (単語数など) でのパフォーマンスの比較はありますか? もしそうなら、hadoop は将来これをサポートしますか?