いくつかの大きなファイルを含む HDFS クラスターを使用していgzip
ます。
このデータ ノードから HDFS に書き込むことで、これらのファイルのすべてのブロックがgzip
同じ DataNode 上にあることを確認しました。
for i in {1..10}; do
scp file$i.gz datanode1:
ssh datanode$i hadoop fs -put file$i.gz /data/
done
ここで、これらすべてのファイルに対して mapreduce タスクを実行したいと考えています。
JobTracker は、すべてのブロックがある で処理file1
するジョブを配置することを期待しています。datanode1
確かに、データノードが死ぬと局所性が失われますが、死ぬまで機能しますか?
そのように機能しない場合は、それができるように書くことはできFileInputFormat
ますか?