Hadoop の使用目的は、入力データが分散(HDFS) され、マッピング プロセスの時点でノードのローカルに既に保存されている場合のようです。
保存する必要のないデータがあるとします。データは実行時に生成できます。たとえば、マッピング プロセスへの入力は、考えられるすべての IP アドレスになります。Hadoop は Mapper の作業をノード間で効率的に分散できますか? 入力データ (つまり、IP アドレス空間) を異なるノードに分割する方法を明示的に定義する必要がありますか? それとも Hadoop が自動的に処理しますか?