1

EMRでは、フォルダー内s3-dist-cp --groupByのファイルにランダムfileNameに名前を付けて、S3で名前を変更したい名前にするために使用しています。

s3-dist-cp --groupBy='.*(folder_in_hdfs).*' --src=hdfs:///user/testUser/tmp-location/folder_in_hdfs --dest=s3://testLocation/folder_in_s3

例:

hadoop fs -ls hdfs:///user/testUser/tmp-location/folder_in_hdfs
Found 2 items
-rw-r--r--   1 hadoop hadoop          0 2019-04-05 14:54 hdfs:///user/testUser/tmp-location/folder_in_hdfs/file.csv/_SUCCESS
-rw-r--r--   1 hadoop hadoop     493077 2019-04-05 14:54 hdfs:///user/testUser/tmp-location/folder_in_hdfs/file.csv/part-00000-12db8851-31be-4b08-8a93-1887e534941d-c000.csv

s3-dist-cp を実行した後、

aws s3 ls s3://testLocation/folder_in_s3/
s3://testLocation/folder_in_s3/file.csv

ただし、コマンドを使用して Dataproc でこの機能を実現しhadoop distcp、ファイルを GCS の場所に書き込みたいと考えています。gs://testLocation/folder_in_gs/file.csv

どんな助けでも大歓迎です。

4

1 に答える 1