13

他の人々がHadoopやその他の MapReduce のようなテクノロジーをどのように使用しているかについての一般的な情報を探しています。一般的に、既存のデータ セット (Web サーバー ログ ファイルなど) を処理する MR アプリケーションを作成しているのか、それとも新しいデータ セットを生成して処理するアプリケーションを作成しているのかに興味があります。

編集: フォローアップの質問

(1) 他の MR プログラムによって生成されたデータに対して MR プログラムを実行したことがありますか?

(2) MR を使用して既存のデータ セットを変更する必要はありますか?

(3) データセットを他の開発者と共有したことがありますか?

4

5 に答える 5

10

Facebook から FOX News までのすべての例と、それらの使用方法については、PowerdBy Hadoop wiki を参照してください。

于 2008-12-02T13:31:46.030 に答える
2

私は既存のデータセットを分析しています。私の場合は、プログラマーの活動の痕跡です。

于 2008-12-01T16:19:52.680 に答える
1

Nutchの一部として Hadoop を使用し、Web グラフとテキストの作成/分析に使用しました

(1) 多くのタスクは一度に実行できないため、MR で生成されたデータに対して MR を実行する必要性が不可欠です。

(2) nutch でクロールする場合、crawldb やその他のデータをフィルター処理または正規化する必要がある場合があります。(あ、はい)

(3) これまでのところ、主にダンプまたは何らかの結果として。これまでのところ「ネイティブ」な MR データではありません。

于 2008-12-08T09:15:06.573 に答える
1

一般的に、既存のデータ セット (Web サーバー ログ ファイルなど) を処理する MR アプリケーションを作成しているのか、それとも新しいデータ セットを生成して処理するアプリケーションを作成しているのかに興味があります。

私が MR アプリケーションで行っている作業には、新しいデータ セットの生成に使用できる既存のデータ セットの処理が含まれます。

(1) 他の MR プログラムによって生成されたデータに対して MR プログラムを実行したことがありますか?

...はい、そうです。これは Map/Reduce 操作の連鎖と呼ばれ、複数の map および reduce ジョブを順番にリンクします。

(2) MR を使用して既存のデータ セットを変更する必要はありますか?

MR の考え方は、既存のデータ セットを投入することであり、そこから情報を処理および分析するために実際に変更する必要はありません。私がそれをしなければならなかった唯一のケースは、データセットを区画に分割することです。

(3) データセットを他の開発者と共有したことがありますか?

アクティブな MR アプリケーションに関連するコードの多くは、私のものと同様に独自のものと見なされているため、他の開発者と共有することは多少問題になります。サンプル データ セットを使用する場合は、Pro Hadoop (Venner)、Hadoop in Action (Lam)、Hadoop the Definitive Guide (White) をお勧めします。

于 2011-07-29T16:50:12.150 に答える
0

これまでの私の 2 つの用途は、大規模な行動データ セット (Web、モバイル ハンドセットなどから収集) の分析と、大規模な問題へのアプローチの並列化 (たとえば、遺伝的アルゴリズムを使用して NP 完全問題空間で局所最適値を見つけること) です。

一般に、MR フローは多段階であるため、以前の MR 段階で生成されたデータに対して頻繁に実行しています。

于 2009-11-20T19:37:26.490 に答える