一般的に、既存のデータ セット (Web サーバー ログ ファイルなど) を処理する MR アプリケーションを作成しているのか、それとも新しいデータ セットを生成して処理するアプリケーションを作成しているのかに興味があります。
私が MR アプリケーションで行っている作業には、新しいデータ セットの生成に使用できる既存のデータ セットの処理が含まれます。
(1) 他の MR プログラムによって生成されたデータに対して MR プログラムを実行したことがありますか?
...はい、そうです。これは Map/Reduce 操作の連鎖と呼ばれ、複数の map および reduce ジョブを順番にリンクします。
(2) MR を使用して既存のデータ セットを変更する必要はありますか?
MR の考え方は、既存のデータ セットを投入することであり、そこから情報を処理および分析するために実際に変更する必要はありません。私がそれをしなければならなかった唯一のケースは、データセットを区画に分割することです。
(3) データセットを他の開発者と共有したことがありますか?
アクティブな MR アプリケーションに関連するコードの多くは、私のものと同様に独自のものと見なされているため、他の開発者と共有することは多少問題になります。サンプル データ セットを使用する場合は、Pro Hadoop (Venner)、Hadoop in Action (Lam)、Hadoop the Definitive Guide (White) をお勧めします。