“mapreduce”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

303 参照

mapreduce - マッパー、レデューサー、フィルター

map /reducealghoritmとその使用法について知っています。マッパーとレデューサーと呼ばれる関数を使用していますが、フィルターという言葉を使用している人もいます。

フィルタはマッパーと同じですか、それとも大きな違いがありますか？

2009-05-02T22:44:51.557

0 投票する

3 に答える

1801 参照

view - CouchDB ビュー: created_at が渡された値より大きい

ソート可能な形式 (2009/05/07 21:40:17 +0000) で created_at タイムスタンプを取得し、より大きな created_at 値を持つすべてのドキュメントを返す couchdb ビューを作成しようとしています。

具体的にはcouch_fooを使用していますが、ビューの書き方がわかれば、couch_fooに任せるのではなく、futonまたはcouch_fooモデルで作成できます。

私はあちこちを検索しましたが、可能であれば、これを行うための map/reduce を理解できません。

view couchdb mapreduce

thekid

2009-05-08T03:55:53.403

0 投票する

2 に答える

1253 参照

java - HadoopでRubyレデューサーを並列化していますか？

Rubyの単純な単語数リデューサーは次のようになります。

STDINにすべてのマッパーの中間値を取得します。特定のキーからではありません。したがって、実際には、すべてに対して1つのレデューサーしかありません（単語ごとまたは単語のセットごとにレデューサーはありません）。

ただし、Javaの例では、キーと値のリストをinoutとして取得するこのインターフェースを見ました。つまり、中間マップ値は、reducedとreducerを並行して実行する前に、キーごとにグループ化されます。

これはJavaのみの機能ですか？または、Rubyを使用したHadoopストリーミングでそれを行うことはできますか？

java ruby hadoop mapreduce

2009-05-08T11:15:42.160

0 投票する

2 に答える

9720 参照

hadoop - Hadoopストリーミングジョブの出力ファイル名とコンテンツを制御するにはどうすればよいですか？

Hadoopストリーミングジョブの出力ファイル名を制御する方法はありますか？具体的には、ジョブの出力ファイルの内容と名前を、レデューサーが出力するketごとに整理する必要があります。各ファイルには1つのキーの値のみが含まれ、その名前がキーになります。

更新：答えが見つかりました-ジョブの出力形式としてMultipleOutputFormatから派生したJavaクラスを使用すると、出力ファイル名を制御できます。 http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html

このためのサンプルは見たことがありません...カスタム出力形式のJavaクラスを使用するHadoopストリーミングサンプルを誰かが指摘できますか？

hadoop mapreduce distributed-computing

2009-05-20T13:18:43.170

0 投票する

2 に答える

5499 参照

distributed - MapReduce はどのように HTTP サーバーログを分析する良い方法ですか?

私はしばらく MapReduce を検討してきましたが、これはフォールトトレラントな分散コンピューティングを実装するための非常に優れた方法のようです。このトピックに関する多くの論文や記事を読み、一連の仮想マシンに Hadoop をインストールし、いくつかの非常に興味深いテストを行いました。Map と Reduce の手順を理解していると思います。

しかし、ここに私の問題があります。http サーバーのログ分析にどのように役立つかわかりません。

私の理解では、大企業 (たとえば Facebook) は、http ログを計算する目的で MapReduce を使用して、これらからオーディエンス統計を抽出するプロセスをスピードアップします。私が働いている会社は、Facebook よりも小さいですが、毎日計算する大量の Web ログを持っています (100Go は毎月 5 から 10% の間で成長しています)。現在、これらのログを単一のサーバーで処理していますが、問題なく動作しています。しかし、コンピューティングジョブの分散は、すぐに役立つ最適化としてすぐに頭に浮かびます。

現時点でお答えできない質問は次のとおりです。

MapReduce の概念は本当にブログ分析に適用できるのでしょうか?
MapReduce はそれを行うための最も賢い方法ですか?
さまざまなコンピューティングインスタンス間で Web ログファイルをどのように分割しますか?

ありがとうございました。
ニコラス

distributed mapreduce logfile-analysis

2009-06-02T11:50:15.100

0 投票する

8 に答える

16006 参照

scala - Scala での MapReduce の実装

Scala から利用できる、優れた堅牢な MapReduce フレームワークを見つけたいと思います。

scala frameworks google-analytics mapreduce

2009-06-07T15:14:59.767

0 投票する

1 に答える

533 参照

couchdb - CouchDB - 基本的なグループ化の質問

グループフィールドを持つユーザードキュメントがあります。このフィールドは、グループ ID の配列です。(groupid をキーとして) -> (ユーザードキュメントの配列を val として) を返すビューを書きたいと思います。このマッピング操作は良い始まりのようです。

しかし、reduce の試みには明らかに非常に問題があります。

CouchDB 0.10dev を実行しています。どんな助けでも感謝します。

couchdb mapreduce

2009-07-02T23:04:50.610

0 投票する

2 に答える

490 参照

.net - Amazon Elastic MapReduce で .NET アプリケーション (または .NET dll のメソッド) を実行できますか?

私が必要としているのは、.NET コードを 1 日 1 時間実行できる強力なマシンです。シャットダウン時にすべてのデータが失われるため、EC2 を使用できません。特定の時間に起動できる仮想 PC が必要です。この PC は、.exe/service/whatever を自動的に起動する必要があります。Amazon MapReduce に Windows インスタンスを開始してコードを実行するように依頼できますか?

.net amazon mapreduce

2009-07-13T22:46:38.097

0 投票する

4 に答える

65004 参照

algorithm - MapReduceの並べ替えアルゴリズムはどのように機能しますか？

MapReduceの能力を実証するために使用される主な例の1つは、Terasortベンチマークです。MapReduce環境で使用される並べ替えアルゴリズムの基本を理解するのに問題があります。

私にとって、並べ替えには、他のすべての要素との関係における要素の相対的な位置を決定することが含まれます。したがって、並べ替えには、「すべて」と「すべて」を比較することが含まれます。平均的な並べ替えアルゴリズム（クイック、バブルなど）は、これをスマートな方法で実行します。

私の考えでは、データセットを多くの部分に分割するということは、1つの部分を並べ替えることができ、それでもこれらの部分を「完全な」完全に並べ替えられたデータセットに統合する必要があることを意味します。数千のシステムに分散されたテラバイトのデータセットを考えると、これは大きな作業になると思います。

では、これは実際にどのように行われるのでしょうか。このMapReduceソートアルゴリズムはどのように機能しますか？

私が理解するのを手伝ってくれてありがとう。

algorithm sorting parallel-processing hadoop mapreduce

2009-07-20T10:07:16.513

0 投票する

7 に答える

635 参照

python - map（）を使用して、Pythonでリスト要素が文字列に存在する回数を取得する

Pythonで、リスト内の各アイテムが文字列に含まれる回数を取得しようとしています。

[2、0、0]を返します

ただし、これを拡張して、段落値をmap（）関数にフィードできるようにします。現在、tester（）関数には段落がハードコーディングされています。誰かがこれを行う方法がありますか（おそらく段落値のn長のリストを作成します）？ここに他のアイデアはありますか？

配列値のそれぞれは、将来のある時点で重みを持つことに注意してください。したがって、値をすべてまとめるのではなく、リストに保持する必要があります。

更新：段落は多くの場合20Kであり、リストには多くの場合200以上のメンバーが含まれます。私の考えでは、マップは並行して動作するため、どのシリアルメソッドよりもはるかに効率的です。

python regex mapreduce

2009-07-22T21:53:13.553

問題タブ [mapreduce]

Reference