8

私のhadoopジョブはHDFSで多数のファイルを生成し、これらのファイルをHDFSからS3にコピーする別のスレッドを作成したいと思います。

誰かがそれを処理するJavaAPIを教えてくれませんか。

ありがとう

4

1 に答える 1

9

「S3ブロックファイルシステムのサポートが、Hadoop0.11.0の${HADOOP_HOME} / bin / hadoop distcpツールに追加されました(HADOOP-862を参照)。distcpツールは、コピーを実行するためのMapReduceジョブを設定します。distcpを使用して、多くのメンバーのクラスターは、大量のデータをすばやくコピーできます。マップタスクの数は、ソース内のファイルの数を数えることによって計算されます。つまり、各マップタスクが1つのファイルのコピーを担当します。ソースとターゲットは、異なるファイルシステムタイプを参照する場合があります。たとえば、ソースはローカルファイルシステムまたはS3をターゲットとするhdfsを参照する場合があります。」

ここでS3の内外での一括コピーの実行を確認してくださいhttp://wiki.apache.org/hadoop/AmazonS3

于 2010-09-16T02:30:43.943 に答える