hadoop - MapReduce/Hadoop をどのように使用していますか?

Question

他の人々がHadoopやその他の MapReduce のようなテクノロジーをどのように使用しているかについての一般的な情報を探しています。一般的に、既存のデータセット (Web サーバーログファイルなど) を処理する MR アプリケーションを作成しているのか、それとも新しいデータセットを生成して処理するアプリケーションを作成しているのかに興味があります。

編集： フォローアップの質問

(1) 他の MR プログラムによって生成されたデータに対して MR プログラムを実行したことがありますか?

(2) MR を使用して既存のデータセットを変更する必要はありますか?

(3) データセットを他の開発者と共有したことがありますか?

score 10 · Accepted Answer

Facebook から FOX News までのすべての例と、それらの使用方法については、PowerdBy Hadoop wiki を参照してください。

score 2 · Accepted Answer

私は既存のデータセットを分析しています。私の場合は、プログラマーの活動の痕跡です。

score 1 · Accepted Answer

Nutchの一部として Hadoop を使用し、Web グラフとテキストの作成/分析に使用しました

(1) 多くのタスクは一度に実行できないため、MR で生成されたデータに対して MR を実行する必要性が不可欠です。

(2) nutch でクロールする場合、crawldb やその他のデータをフィルター処理または正規化する必要がある場合があります。（あ、はい）

(3) これまでのところ、主にダンプまたは何らかの結果として。これまでのところ「ネイティブ」な MR データではありません。

score 1 · Accepted Answer

一般的に、既存のデータセット (Web サーバーログファイルなど) を処理する MR アプリケーションを作成しているのか、それとも新しいデータセットを生成して処理するアプリケーションを作成しているのかに興味があります。

私が MR アプリケーションで行っている作業には、新しいデータセットの生成に使用できる既存のデータセットの処理が含まれます。

(1) 他の MR プログラムによって生成されたデータに対して MR プログラムを実行したことがありますか?

...はい、そうです。これは Map/Reduce 操作の連鎖と呼ばれ、複数の map および reduce ジョブを順番にリンクします。

(2) MR を使用して既存のデータセットを変更する必要はありますか?

MR の考え方は、既存のデータセットを投入することであり、そこから情報を処理および分析するために実際に変更する必要はありません。私がそれをしなければならなかった唯一のケースは、データセットを区画に分割することです。

(3) データセットを他の開発者と共有したことがありますか?

アクティブな MR アプリケーションに関連するコードの多くは、私のものと同様に独自のものと見なされているため、他の開発者と共有することは多少問題になります。サンプルデータセットを使用する場合は、Pro Hadoop (Venner)、Hadoop in Action (Lam)、Hadoop the Definitive Guide (White) をお勧めします。

score 0 · Accepted Answer

これまでの私の 2 つの用途は、大規模な行動データセット (Web、モバイルハンドセットなどから収集) の分析と、大規模な問題へのアプローチの並列化 (たとえば、遺伝的アルゴリズムを使用して NP 完全問題空間で局所最適値を見つけること) です。

一般に、MR フローは多段階であるため、以前の MR 段階で生成されたデータに対して頻繁に実行しています。

hadoop - MapReduce/Hadoop をどのように使用していますか?

5 に答える 5

Related

Reference