amazon-s3 - プログラムでHDFSからS3にファイルを効果的にコピーする方法

Question

私のhadoopジョブはHDFSで多数のファイルを生成し、これらのファイルをHDFSからS3にコピーする別のスレッドを作成したいと思います。

誰かがそれを処理するJavaAPIを教えてくれませんか。

ありがとう

score 9 · Accepted Answer

「S3ブロックファイルシステムのサポートが、Hadoop0.11.0の${HADOOP_HOME} / bin / hadoop distcpツールに追加されました（HADOOP-862を参照）。distcpツールは、コピーを実行するためのMapReduceジョブを設定します。distcpを使用して、多くのメンバーのクラスターは、大量のデータをすばやくコピーできます。マップタスクの数は、ソース内のファイルの数を数えることによって計算されます。つまり、各マップタスクが1つのファイルのコピーを担当します。ソースとターゲットは、異なるファイルシステムタイプを参照する場合があります。たとえば、ソースはローカルファイルシステムまたはS3をターゲットとするhdfsを参照する場合があります。」

ここでS3の内外での一括コピーの実行を確認してくださいhttp://wiki.apache.org/hadoop/AmazonS3

amazon-s3 - プログラムでHDFSからS3にファイルを効果的にコピーする方法

1 に答える 1

Related

Reference