hadoop - S3でhadoopfs-getmergeを実行することは可能ですか？

Question

S3でいくつかのファイルを書き込んでいるElasticMapReduceジョブがあり、すべてのファイルを連結して一意のテキストファイルを生成したいと思います。

現在、すべてのファイルを含むフォルダーをHDFS（hadoop fs copyFromLocal）に手動でコピーしてから、hadoopfs-getmergeおよびhadoopfscopyToLocalを実行してファイルを取得しています。

とにかくS3で直接hadoopfsを使用することはできますか？

score 1 · Accepted Answer

実際、getmergeに関するこの応答は正しくありません。getmergeはローカルの宛先を想定しており、S3では機能しません。IOException-getmerge：Wrong FS：で応答しようとすると、がスローされます。

使用法：

hadoop fs [generic options] -getmerge [-nl] <src> <localdst>

score 1 · Accepted Answer

簡単な方法（マスターマシンに収まる小さなファイルを生成している場合）は、次のことを行うことです。

ファイルパーツをローカルマシン上の単一のファイルにマージします（ドキュメント）
```
hadoop fs -getmerge hdfs://[FILE] [LOCAL FILE]
```
結果ファイルをS3にコピーしてから、ローカルファイルを削除します（ドキュメント）
```
hadoop dfs -moveFromLocal [LOCAL FILE] s3n://bucket/key/of/file
```

score 0 · Accepted Answer

個人的にgetmergeコマンドを試したことはありませんがhadoop fs、EMRクラスターノードのコマンドは、HDFSパスと同じようにS3パスをサポートしています。たとえば、クラスターのマスターノードにSSHで接続して、次のコマンドを実行できます。

hadoop fs -ls s3://<my_bucket>/<my_dir>/

上記のコマンドは、指定されたディレクトリパスの下にあるすべてのS3オブジェクトを一覧表示します。

hadoop fs -getmerge私は同じように働くことを期待します。したがって、HDFSパスの代わりに完全なS3パス（s3：//で始まる）を使用するだけです。

3 に答える 3