問題タブ [reducers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - レデューサーでの Hadoop コンバイナーの実行
一部のマッパーが他のマッパーよりもかなり多くの時間を費やしている MapReduce ジョブを長時間実行しています。
Web インターフェースの統計を確認すると、私のコンバイナがレデューサー (2 つのマッパーがまだ実行されているためほとんどアイドル状態) にも影響を与えていることがわかりました。
時間を無駄にせず、すべてのマッパーが終了するまで事前集計を行うのが妥当と思われますが、この動作に関するドキュメントは見つかりません。これが実際に Hadoop の機能であること、または単に Web インターフェースで間違って表示されていることを確認できる人はいますか?
apache - 500GB または 1TB の Hadoop 2.6 および 2.7 Apache Terasort
マップを実行しているときにレデューサーが開始すると、0 から 100 になり、次のエラーが発生します。
これはデフォルト構成であり、毎回失敗します。
この問題を見つけるためにコメントアウトしたxmlに挿入する構成はすべて、削減の開始時にのみジョブが失敗するという問題がまだあります。
python - Pyspark - レデューサー タスクは値を反復処理します
初めてpysparkを使用しています。
java と同じように、リデューサー タスクがマッパーからのキーで返される値を反復処理するようにします。
アキュムレータのオプションのみがあり、反復はありません-add関数のように add(data1,data2) => data1 はアキュムレータです。
キーに属する値のリストを入力に入れたいと思います。
それが私がやりたいことです。それを行うオプションがあるかどうか誰でも知っていますか?
mapreduce - 値はキーの順序で Cloudant レデューサーに取り込まれますか?
Cloudant上のデータベースの map/reduce コードを書いています。次の場合、値reduce(keys, values, rereduce)
はキーの順序で関数に渡されますrereduce=false
か? 私はHadoopでの作業に慣れているので、そうするだろうと思いますが、Cloudantのドキュメントには、そうであると明示的に述べているものは見つかりません.
mapreduce - HBase-Mapreducer、TableReducer 使用時のレデューサーの最適数
Map reduce を使用してデータを HBase に書き込みます。フォーマットを行う必要があるため、TableReducer を拡張して独自のレデューサーを実装しました。このカスタム レデューサーは、運用環境と開発環境で動作が異なります。次のエラーを取得する
エラー: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: 659 のアクションに失敗しました: RegionTooBusyException: 659 回、
ここから、フラッシングがきちんとされていないことがわかりました。ただし、同じことが開発環境で正常に機能しています。
上記のオプションに加えて、リデューサーの数を構成することも、リージョンサーバーに送信されるデータの量に影響を与える可能性があると思います.
リージョン サーバー間で行キーをスパンするためにソルトを使用しています。現在、salt は 20m で、リージョン サーバーの数は 60 です。レコードを均等にスパンするには、salt をリージョン サーバーの数と同じに選択する必要がありますか? そうでない場合、データを Hbase にロードする際に、リデューサーの数の最適な値を特定する方法。
また、一般に、Hbase と対話するためにクライアント側で許可される接続の最大数はいくつですか。ここでは、API 提供の Map reducer を使用していますが、一般に、Hbase へのクライアント接続を処理します。クライアント接続の最大数が重要な役割を果たす可能性があります。助けてくれてありがとう
dictionary - Clojure は変換関数をマップの値に適用します
私が地図を持っているとしましょう:
それを反復処理してすべてを整数に変換するにはどうすればよいですか?
明らかな解決策は次のとおりです。
しかし、それは非常に繰り返されているように感じます。
ここでは還元関数がうまくいくと思いますが、どうすればよいかわかりません。