Map Reduce が一般的にどのように機能するかを理解しようとしています。したがって、私が知っていることは、複数のコンピューターで並行して実行され、目的のデータセットを作成するために複数のコンピューターで並行して実行されるリデューサーによって使用される結果セットを作成するマッパーがあることです。
私の質問は次のとおりです。
1 つのジョブは一定数のファイルに対して実行されますか? そのため、ジョブの開始時に、データを処理して生成するために処理する必要がある固定数のファイルがあります。
いいえの場合、Twitter フィードなどのさまざまなソースからのデータ ストリームをどのように処理できますか?
はいの場合、すべての Mapper が終了し、Reducing タスクを開始する必要があることを Map Reduce がどのように検出するかを説明してください。参照ポイントがない可能性があるためです。