0

スポット インスタンスで mapreduce ジョブを実行しようとしています。StarClusters とその Hadoop プラグインを使用してインスタンスを起動します。データをアップロードしてから HDFS に入れ、結果を HDFS からコピーして戻すことに問題はありません。私の質問は、データを s3 から直接ロードし、結果を s3 にプッシュする方法はありますか? (データを s3 から HDFS に手動でダウンロードし、結果を HDFS から s3 にプッシュしたくありません。バックグラウンドで行う方法はありますか)?

標準のMIT starcluster amiを使用しています

4

1 に答える 1

1

あなたはそれを行うことはできませんが、スクリプトを書くことはできます。たとえば、次を使用できます: hadoop distcp s3n://ID:key@mybucket/file /user/root/file を使用して、ファイルを s3 から hdfs に直接配置します。

于 2015-05-04T06:36:17.853 に答える