Mapジョブが(JobTrackerを介して)Mapジョブに供給される入力レコードのセットを生成する必要があります。
私は解決策を考えることができず、あなたの助けが必要です。
詳細:Webクローラーを作成する予定です。最初のルートレベルのWebページがmapreduceジョブに入力されます。マッパー/リデューサーはWebページをフェッチし、ページからリンクを収集します。これらのリンクは、mapreduceジョブへの入力として扱う必要があります。したがって、これらのリンクをジョブトラッカーにプッシュして、最初のルートノードで行われたのと同じように処理できるようにします。追加できる最終条件があります(たとえば、リンク正規表現のマッチング)。正規表現が一致する場合、マップ(または削減)タスクによってジョブトラッカーに戻されません。