問題タブ [mapreduce]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5840 参照

erlang - CouchDB:Erlangでのmap-reduce

Erlang for CouchDBでmap-reduce関数を作成するにはどうすればよいですか?ErlangはJavaScriptよりも速いと確信しています。

0 投票する
5 に答える
2709 参照

javascript - 複合CouchDBキーの最大値は?

結合ビューを作成するための一般的なトリックと思われるものを使用しています。

次のクエリを使用して、関連する単一の scustomerとすべての sを取得できることを知っています。Order

しかし今では、クエリをビュー コードに非常に密接に結びつけることができました。「すべてをこの顧客に結び付け2たい」とより明確に言うために、「 」を置く場所に置くことができる値はありますか? 見たことがあると思います

しかし、それが他のすべての後に確実にソートされるかどうか{}はわかりません。

join メソッドについてはcmlenzの功績によるものです。

collat​​ion に関する CouchDB wiki ページからのさらなる説明:

このクエリは、 andstartkey=["foo"]&endkey=["foo",{}]など、最初の要素が「foo」であるほとんどの配列キーと一致します。ただし、一致しません["foo","bar"]["foo",["bar","baz"]]["foo",{"an":"object"}]

ソート順{}遅いですが、間違いなく最後ではありません。

0 投票する
4 に答える
2647 参照

.net - .NETを使用してAmazonElasticMapReduceのmap/reduceジョブを作成することは可能ですか?

.NET言語を使用してAmazonElasticMapReduce(http://aws.amazon.com/elasticmapreduce/ )のmap / reduceジョブを作成することは可能ですか?特にC#を使用したいと思います。

予備調査はそうではないことを示唆しています。上記のURLのマーケティングテキストは、.NET言語に言及することなく、「Java、Ruby、Perl、Python、PHP、R、またはC++の選択肢」があることを示唆しています。このAmazonスレッド(http://developer.amazonwebservices.com/connect/thread.jspa?messageID=136051-"C#/ F#map / reducersのサポート")は、「現在、AmazonElasticMapReduceはMonoプラットフォームまたはC#やF#などの言語。」

上記はそれができないことを示唆しています。ただし、回避策があるかどうか疑問に思っています。たとえば、自分のアカウントのElastic MapReduceマシンイメージを変更して、そこにMonoをインストールできますか?

別の方法として、Amazon FAQ「Jarに必要な他のソフトウェアの使用」(http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/index.html?CHAP_AdvancedTopics.html)および「追加のファイルとライブラリの使用方法」で提案されています。 MapperまたはReducerを使用する」(http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/index.html?addl_files.html)は、Map/Reduceジョブの最初のステップをMonoをにインストールすることです。ローカルインスタンス。それはちょっと非効率に聞こえますが、多分それはうまくいくでしょうか?

おそらく、賢明な代替策は、Elastic MapReduceの利便性を放棄し、EC2に独自のHadoopクラスターを手動でセットアップすることです。それなら、Monoを問題なくインストールできると思います。

0 投票する
2 に答える
653 参照

performance - 優れたパフォーマンスを提供するスキーマレス データストアはどれですか?

最近、を使用する Web アプリを作成しましたcouchdb。私はcouchdbが好きで、動的な動作が多く、couchdbからJSONを直接プルするだけのアプリに適していました。ブラウザ経由で画像をアップロードできるのは便利で、ドキュメント データを微調整するのも簡単です。アプリはカウチアプリであるため、複製によって展開も簡単になり、展開に必要なのは運用サーバーへの複製だけです。

しかし、私が考えている新しいアプリ (ブログのようなものだと考えてください) では、良いパフォーマンスが必要であり、これは、couchdb が強くないと思う領域の 1 つです。アプリは主に読み取り指向になります (90% から 10 % 書き込み)。

単一サーバーのシナリオで最高のパフォーマンスを提供するデータストアはどれですか? これについて人々の経験を聞くことに非常に興味があります...

0 投票する
10 に答える
9725 参照

hadoop - ストリーミング データと Hadoop? (Hadoop ストリーミングではない)

MapReduce アプローチを使用して (HTTP 経由でアクセスされる) データの連続ストリームを分析したいので、Apache Hadoop を調べています。残念ながら、Hadoop は、新しいデータが到着したときに消費者に渡すことができるのではなく、固定サイズの入力ファイルでジョブを開始することを期待しているようです。これは実際に当てはまりますか、それとも何か不足していますか? 開いているソケットから読み込まれるデータを操作する別の MapReduce ツールはありますか? ここではスケーラビリティが問題になるので、MapReducer に厄介な並列処理を処理させたいと思います。

Cascadingをいじってみたところ、HTTP 経由でアクセスする静的ファイルでジョブを実行できましたが、これで実際に問題が解決するわけではありません。中間ステップとして curl を使用して Hadoop ファイルシステムのどこかにデータをダンプし、新しいデータ チャンクの準備が整うたびに新しいジョブを起動するウォッチドッグを作成することもできますが、それは汚いハックです。これを行うには、もっとエレガントな方法が必要です。何か案は?

0 投票する
2 に答える
1895 参照

multithreading - Delphi 用の MapReduce ライブラリはありますか?

私は最近、Google の MapReduce の力を簡潔に説明している次の素晴らしい記事を読みました。

http://www.joelonsoftware.com/items/2006/08/01.html

Mastering Delphi 2009 で、Marco Cantu は匿名関数を使用したマルチスレッド for ループを示しています。これは基本的に MapReduce の Map 部分ですが、完全ではなく、他のサンプルが存在すると述べています。Embarcadero の誰かが DTL ライブラリに取り組んでいることも漠然と知っていますが、最近はあまり見かけません。

では、Delphi で使用できる MapReduce の確実な実装はありますか?

Andreas Hausladen のこの便利なライブラリを知っています。一般的な Map Reduce がない場合、これは構築するのに最適なライブラリですか?

http://andy.jgknet.de/blog/?page_id=100

ありがとう!

0 投票する
7 に答える
2634 参照

wiki - ウィキペディアのページのサブセットを取得するにはどうすればよいですか?

ウィキペディアのページのサブセット(たとえば100MB)を取得するにはどうすればよいですか?データセット全体をXMLとして取得できることがわかりましたが、1ギガまたは2ギガに似ています。そんなにいらない。

map-reduceアルゴリズムの実装を試してみたいと思います。

そうは言っても、100メガバイトに相当するテキストサンプルデータをどこからでも見つけることができれば、それも良いことです。たとえば、Stack Overflowデータベースが利用可能な場合は、適切なサイズになる可能性があります。私は提案を受け入れています。

編集:急流ではないものはありますか?私はそれらを働かせることができません。

0 投票する
3 に答える
10881 参照

hadoop - PIG(Hadoop)で入力をサブストリングに分割する

Pigに次の入力があると仮定します。

そして、私はそれを次のように変換したいと思います。

私は(まだ)ピッグラテン語のchararrayを反復処理する方法を見つけていません。TOKENIZE関数を見つけましたが、それは単語の境界で分割されます。それで、「pig latin」はこれを行うことができますか、それともこれを行うためにJavaクラスを必要とするものですか?

0 投票する
4 に答える
2617 参照

java - Hadoop ディストリビューションの違い

利用可能なさまざまなHadoopディストリビューション間のさまざまな違いを誰かが概説できますか:

Apache Hadoop ディストリビューションをベースラインとして使用します。

標準の Apache Hadoop ディストリビューションでこれらのディストリビューションのいずれかを使用する正当な理由はありますか?

0 投票する
5 に答える
8149 参照

hadoop - BigTable で OLAP を実行できますか?

以前は、MySQL で実行される OLAP キューブを使用して WebAnalytics を構築していました。さて、私が使用した OLAP キューブは、各行が基本的に測定値または測定値の集計セットである単純な大きなテーブルです (OK、それよりも少し賢く格納されています)。各測定値には、一連のディメンション (つまり、どのページ名、ユーザーエージェント、IP など) と一連の値 (つまり、ページビュー数、訪問者数など) があります。

このようなテーブルで実行するクエリは、通常、次の形式 (メタ SQL) です。

したがって、前述のフィルターを使用して、選択した日の各時間の合計を取得します。障害の 1 つは、これらのキューブは通常、完全なテーブル スキャンを意味し (さまざまな理由)、これは、これらのものを作成できるサイズ (MiB 単位) の実際的な制限を意味することでした。

私は現在、Hadoop などの詳細を学んでいます。

上記のクエリを BigTable で mapreduce として実行するのは簡単に見えます。「hour」をキーにして、マップをフィルター処理し、値を合計して reduce するだけです。

バッチ モードではなく、BigTable の種類のシステムで、上に示したような (または少なくとも同じ出力で) クエリを実行できますか?

そうでない場合; BigTable/Hadoop/HBase/Hive などの領域でこのようなことを行うための適切なテクノロジは何ですか?