私のhadoopジョブはHDFSで多数のファイルを生成し、これらのファイルをHDFSからS3にコピーする別のスレッドを作成したいと思います。
誰かがそれを処理するJavaAPIを教えてくれませんか。
ありがとう
「S3ブロックファイルシステムのサポートが、Hadoop0.11.0の${HADOOP_HOME} / bin / hadoop distcpツールに追加されました(HADOOP-862を参照)。distcpツールは、コピーを実行するためのMapReduceジョブを設定します。distcpを使用して、多くのメンバーのクラスターは、大量のデータをすばやくコピーできます。マップタスクの数は、ソース内のファイルの数を数えることによって計算されます。つまり、各マップタスクが1つのファイルのコピーを担当します。ソースとターゲットは、異なるファイルシステムタイプを参照する場合があります。たとえば、ソースはローカルファイルシステムまたはS3をターゲットとするhdfsを参照する場合があります。」
ここでS3の内外での一括コピーの実行を確認してくださいhttp://wiki.apache.org/hadoop/AmazonS3