hdfs ディレクトリ構造を変更しています。現在のものは次のとおりです。
.../customers/customers1/2016-05-16-10/lots_of_files1.csv
.../customers/customers2/2016-05-16-10/lots_of_files2.csv
.../customers/customers3/2016-05-16-10/lots_of_files1.csv
.../customers/customers4/2016-05-16-10/...
.../customers/customers5/2016-05-16-10/...
.../customers/customers6/2016-05-16-10/...
.../customers/customers7/2016-05-16-10/...
顧客を取り除きたい(1-7):
.../customers/2016-05-16-10/lots_of_files1.csv
.../customers/2016-05-16-10/lots_of_files2.csv
.../customers/2016-05-16-10/lots_of_files1(1).csv
私はスネークバイト python hdfs ライブラリを使用することを考えましたが、多くのエッジケースが発生します: 1. 同じ日付が複数回発生する可能性があります。2. csv の名前は複数回発生する場合がありますが、データが異なるため、同様に移動する必要があります。
可能な限りクリーンな方法でそれを達成するにはどうすればよいですか?