HadoopとMapReduce(私は初心者です!)を調査していて、HDFSに関して簡単な質問があります。HDFSとMapReduceがどのように連携するかについて少し混乱しています。
システムAからのログ、ツイート、およびシステムBからのドキュメントのスタックがあるとします。これがHadoop / HDFSに読み込まれると、これはすべて1つの大きなHDFSバケットにスローされますか、それとも3つの領域があります(より良い言葉)?もしそうなら、正しい用語は何ですか?
質問は、MapReduceジョブを実行する方法を理解することから生じます。たとえば、ログだけに集中したい場合、これを実行できますか、それともすべてのジョブがクラスターに格納されているコンテンツ全体で実行されますか?
ご指導ありがとうございます!TM