0

Map Reduce が一般的にどのように機能するかを理解しようとしています。したがって、私が知っていることは、複数のコンピューターで並行して実行され、目的のデータセットを作成するために複数のコンピューターで並行して実行されるリデューサーによって使用される結果セットを作成するマッパーがあることです。

私の質問は次のとおりです。

  • 1 つのジョブは一定数のファイルに対して実行されますか? そのため、ジョブの開始時に、データを処理して生成するために処理する必要がある固定数のファイルがあります。

  • いいえの場合、Twitter フィードなどのさまざまなソースからのデータ ストリームをどのように処理できますか?

  • はいの場合、すべての Mapper が終了し、Reducing タスクを開始する必要があることを Map Reduce がどのように検出するかを説明してください。参照ポイントがない可能性があるためです。

4

1 に答える 1

1

答え:

  1. はい。基本的に、ジョブは開始し、ファイルを処理して終了します。永遠に実行されません。

  2. ストリーム処理は、バッチ処理システムであるため、Storm または類似のテクノロジで処理できますが、Hadoop だけでは処理できません。また、 Hadoop YarnStorm がどのように連携するかを調べることもできます。

  3. 異なるノードで実行されている tasktracker は、ジョブの実行を調整するジョブトラッカーに定期的に実行されているさまざまなタスク (Map タスク /Reduce タスク) のステータス情報を送信するため、 を参照する必要があります。

于 2013-10-02T06:09:22.387 に答える