地理データのタイル (Google マップなど) を計算する Hadoop アプリケーションを作成しています。Map タスクを実行するときに、必要なデータが dfs で利用できるかどうかを確認したいと思います。そうでない場合は、後でマップを実行する必要があります。Hadoop が後でそれを自動的に再実行するように、Map タスクを失敗として設定できると思いました。しかし、私はそれを行う方法を見つけることができないようです。誰でも私を助けることができますか?
質問する
65 次
1 に答える
1
マップ タスクは、HDFS で処理するデータがある場合にのみ起動されます。マッパー コードでデータの可用性を明示的に確認する必要はありません。
ジョブ内のマップ タスクの数は、入力分割の数、または FileInputFormat の場合は処理されるブロックの数と同じです。
より明確にするために、 Hadoop - The Definitive Guideの適切な MapReduce の章を参照することをお勧めします。
于 2012-11-13T08:25:03.953 に答える