現在、私の hdfs 構造は次のとおりです。
/データ/xxx/xxx/2014
/データ/xxx/xxx/2015
/データ/xxx/xxx/2016
2015 年に 2 ファイル、2016 年に 2 ファイル、2014 年に 1 ファイルのみ
このコマンドを使用して、それらを個別にコピーします。
hadoop distcp -Dfs.s3n.awsAccessKeyId="mykey" -Dfs.s3n.awsSecretAccessKey="mysecret" /data/xxx/xxx/2014* s3n://bucket/emr/xxx/xxx/year=2014/
なんとなくそう見える
前の年=2015/
前の年=2016/
44324255 年=2014
2014 のファイルは s3 フォルダーに保存されず、別のファイルとして保存されます。 (複数のファイルがあるため、このケースは 2015 と 2016 には発生しません)
PRE year=2014/ として保存する方法はありますか ???
このコマンドでディレクトリ階層をフラットにしたくありません。