0

HadoopとMapReduce(私は初心者です!)を調査していて、HDFSに関して簡単な質問があります。HDFSとMapReduceがどのように連携するかについて少し混乱しています。

システムAからのログ、ツイート、およびシステムBからのドキュメントのスタックがあるとします。これがHadoop / HDFSに読み込まれると、これはすべて1つの大きなHDFSバケットにスローされますか、それとも3つの領域があります(より良い言葉)?もしそうなら、正しい用語は何ですか?

質問は、MapReduceジョブを実行する方法を理解することから生じます。たとえば、ログだけに集中したい場合、これを実行できますか、それともすべてのジョブがクラスターに格納されているコンテンツ全体で実行されますか?

ご指導ありがとうございます!TM

4

1 に答える 1

1

HDFS はファイル システムです。ローカル ファイル システムと同様に、すべてのログとドキュメントを複数のファイルとディレクトリに整理できます。MapReduce ジョブを実行するときは、通常、入力ファイルを含むディレクトリを指定します。したがって、システム A のログまたはシステム B のドキュメントに対してのみジョブを実行できます。

ただし、マッパーの入力はInputFormat. ほとんどの実装は、FileInputFormatファイルの読み込み元です。InputFormatsただし、他のソースからデータを読み取るためにカスタムを実装することは可能です。このHadoop チュートリアルで、入力形式と出力形式の説明を見つけることができます。

于 2013-02-08T18:37:56.307 に答える