CopyFromLocal を使用して HDFS にアップロードした大きなファイルは、データノードに分散される小さなブロックに分割されます。HDFSがこれらのブロックを配置する場所を正確に選択する方法に興味があります.ブロックごとに完全にランダムにデータノードを選択しますか(データノードがすでに保持しているブロックの数またはその予備容量に関係なく)、または選択の背後に何らかの方法があります. ? たくさん(小さい)ファイルをアップロードするときのルールと同じですか?
レプリカの配置にはルールがあることは承知していますが、現時点では、複製されたファイルの配置の詳細ではなく、元のファイル自体の配置に注目しています。
乾杯エリー