特定のファイルを保存する場所をHDFS に指示することはできますか?
使用事例
ファイルのバッチ #1 を HDFS にロードしたところ、これらのデータに対してジョブ/アプリケーションを実行したいと考えています。ただし、まだロードされていないバッチ #2 もあります。たとえば、ノード 1 から 10 の最初のバッチでジョブ/アプリケーションを実行し、ノード 11 から 20 に新しいデータを完全に並行してロードできればよいのですが。
最初はNameNode フェデレーション(Hadoop 2.x) がまさにそれを行うと思っていましたが、フェデレーションは名前空間のみを分割するように見えますが、DataNode は接続されたすべての NameNode にブロックを提供します。
では、 HDFSでデータの分散を制御する方法はありますか? そして、それはまったく意味がありますか?