Hadoopで3つのジョブを同時に実行しますが、それらは無関係です。
それらの1つへの入力は、HTTPを介して行われ、大きなファイルのダウンロードが遅くなります。
その他は、HDFSおよびS3Nファイルシステムからの入力です。
私はHadoopでこの種のものを構築するのは初めてです。
- マップフェーズを最適化するにはどうすればよいですか?
- 少なくともダウンロードの実行と同時にディスクの読み取りを実行したいのは当然のことのようです。
- すべての大容量ディスク操作がダウンロードを待機することを望まないことは確かです(20回のダウンロードのそれぞれが1時間になる可能性があります)
- 複数の大きなディスク読み取りが同時に発生することは望ましくないと思います。
このマップ/入力/データ取得フェーズはHadoopによってどのように処理されますか?