問題タブ [mapreduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - mapreduce中間キーをソートするためのネットワーク帯域幅のボトルネック?
私はmapreduceアルゴリズムと、それが何百万ものマシンに拡張できる可能性がある方法を学びましたが、マップフェーズ後の中間キーの並べ替えがどのように拡張できるかを理解していません。
1,000,000 x 1,000,000
:中間結果の小さなキー/値ペアを相互に通信する潜在的なマシン?これがボトルネックではありませんか?
mapreduce - map-reduce 操作の最終結果はインデックス化されていますか?
map reduce 操作の最終結果を反復処理する方法を見つけようとしているので、map reduce の結果に何らかのインデックスが必要だと思いますか?
language-agnostic - Map Reduce フレームワーク/インフラストラクチャ
Map Reduce は、最近多くの注目を集めているパターンであり、イベント処理パイプライン (iPhone 加速度計と GPS データ) に焦点を当てた私のプロジェクトの 1 つに現れ始めています。このプロジェクトのために多くのインフラストラクチャを構築する必要がありました。私が構築したコンポーネントの一部は、EventProcessors (in-および outputbuffers、タイミングなどを使用)、EventListeners、Aggregators、およびステージングされたパイプラインです。
これにより、マップ削減に必要な「一般的な」インフラストラクチャとは何かという疑問が生じます。私は .Net を頻繁に使用しているため、Map Reduce インフラストラクチャがフレームワークと言語構造に組み込まれていることがわかります。関数型言語は、このパラダイム自体をサポートしています。すべての言語が map reduce で使用できるようです。その概念に基づいて構築された言語もあります(例: Go)。
Apache Hadoopは Map-Reduce を Java にもたらします。Google はmap-reduce フレームワークの特許を取得しています。マップ削減を可能にするために、どのようなインフラストラクチャを提供していますか? map reduce を実装するために関数型言語で示される構成要素は何ですか? map-reduce フレームワークが提供する必要がある/提供する必要があるものは何ですか?
javascript - CouchDB のハッシュの配列に対する Map/Reduce
デザイン ドキュメントのステータスを計算する map/reduce 関数を探しています。以下に、現在のデータベースのドキュメントの例を示します。
status
キーを取り除き、URLのステータスから計算したいと思います。私の現在のby_status
ビューは次のようになります。
いくつか試してみましたが、実際には何も機能しません。今、私のMap Function
見た目は次のようになります。
と私Reduce Function
その結果、私はどこでも取得されますが、これは間違いなく正しくありません。
問題を絞り込もうとしましたvalue
が、配列ではないようです。次を使用すると、Reduce Function
どこでも長さ 1 になります。データベースに 12 個のドキュメントがあり、それぞれに 20 ~ 200 個の URL が含まれているため、これは不可能です。
代替テキスト http://img.skitch.com/20100316-qeawxgd5pru8d5i6bprygcsmhf.jpg
私は何を間違っていますか?(コードを書いてほしいのはわかっていて罪悪感を感じていますが、現在はデータベースからデータを取得した後、Ruby でステータスの計算を行っています。データベース)
mapreduce - シンプルな MAP Reduce API の定義
Java、Erlang、Ruby で分散処理 API を開発しています。mapreduce、パイプライン処理、およびその上に最もよく使用されるすべての並列アルゴリズムを構築できる基本的なコマンドは何ですか。
couchdb - Couchdb map/reduce でユーザーごとにお気に入りのユーザー ドキュメントのビューを取得するにはどうすればよいですか?
次のようなメイン ドキュメント タイプとしての私の Couchdb データベース:
ユーザー情報を格納する別の種類のドキュメントがあります。ユーザーがドキュメントをお気に入りとしてタグ付けできるようにしたい。異なるユーザーは、同じまたは異なるドキュメントをお気に入りとして保存できます。私のアイデアは、お気に入りのドキュメントを紹介して、これを次のように追跡することでした。
user_id をキーとしてビューを作成し、お気に入りのドキュメント ID のリストを取得するのは簡単です。例えば:
ただし、お気に入りのリストを表示して、ドキュメントの user_id、doc_id、およびタイトルを表示したいと考えています。したがって、次のように出力します。
hadoop - Hadoop での複数の MapReduce ジョブのチェーン
MapReduce を適用する多くの実際の状況では、最終的なアルゴリズムはいくつかの MapReduce ステップになります。
つまり、 Map1 、 Reduce1 、 Map2 、 Reduce2 などです。
したがって、次のマップの入力として必要な最後の reduce からの出力が得られます。
中間データは、(一般に) パイプラインが正常に完了すると保持したくないものです。また、この中間データは一般に何らかのデータ構造 (「マップ」や「セット」など) であるため、これらのキーと値のペアの書き込みと読み取りにあまり労力をかけたくないでしょう。
Hadoop で推奨される方法は何ですか?
後のクリーンアップを含め、この中間データを正しい方法で処理する方法を示す (簡単な) 例はありますか?
amazon-web-services - Amazon Elastic Map Reduce-サーバーを存続させますか?
私はEMRでジョブをテストしていますが、すべてのテストの開始には多くの時間がかかります。Amazon EMRでサーバー/マスターノードを存続させる方法はありますか?私はこれがAPIで実行できることを知っています。しかし、これがawsコンソールで実行できるかどうか知りたいですか?
hadoop - Map/Reduceを使用してランダムな(小さい)データサンプルを選択する方法は?
行レベルの条件に基づいて大規模なデータセットから多数のランダム サンプルを選択する map/reduce ジョブを作成したいと考えています。中間キーの数を最小限に抑えたい。
擬似コード:
このようなことをしたことがありますか?よく知られているアルゴリズムはありますか?
連続した行を含むサンプルでも十分です。
ありがとう。