かなり大量のデータ (~30G、~100 ファイルに分割) があり、S3 と EC2 間で転送したい: EC2 インスタンスを起動するときに、S3 から EC2 ローカル ディスクにデータをコピーしたい処理が完了したら、結果を S3 にコピーしたいと思います。
データの高速/並列コピーを行ったり来たりするツールを探しています。まともな仕事をするものを含め、いくつかのスクリプトをハックしたので、基本的なライブラリへのポインタを探していません。速くて信頼できるものを探しています。
かなり大量のデータ (~30G、~100 ファイルに分割) があり、S3 と EC2 間で転送したい: EC2 インスタンスを起動するときに、S3 から EC2 ローカル ディスクにデータをコピーしたい処理が完了したら、結果を S3 にコピーしたいと思います。
データの高速/並列コピーを行ったり来たりするツールを探しています。まともな仕事をするものを含め、いくつかのスクリプトをハックしたので、基本的なライブラリへのポインタを探していません。速くて信頼できるものを探しています。
残念ながら、EBSの理解が間違っているため、Adamの提案は機能しません(ただし、彼が正しいことを望み、多くの場合、そのように機能するはずだと思っていました)... EBSはS3とは関係ありませんが、それはあなたにしか与えられません個別であるがインスタンスに接続可能なEC2インスタンスの「外部ドライブ」。S3とEC2の間でデータ転送コストがない場合でも、S3とEC2の間でコピーを行う必要があります。
インスタンスのオペレーティングシステムについて言及されていないため、カスタマイズされた情報を提供することはできません。私が使用する人気のあるコマンドラインツールはhttp://s3tools.org/s3cmdです...これはPythonに基づいているため、そのWebサイトの情報によると、LinuxだけでなくWinでも動作するはずです。 Linuxでの時間。rsyncと同様に機能する組み込みの「sync」コマンドを使用するクイックスクリプトを簡単に作成し、データの処理が完了するたびにトリガーすることができます。再帰的なputおよびgetコマンドを使用して、必要な場合にのみデータを取得および配置することもできます。
スケジュールコマンドを設定できるWindows用のコマンドラインオプションを備えたCloudberryProのようなグラフィカルツールもあります。http://s3tools.org/s3cmdがおそらく最も簡単です。
S3 の代わりに Elastic Block Store を使用してファイルを保存する方がよいと思います。EBS は、毎回データをコピーすることなく EC2 インスタンスにマウントできる S3 の「ドライブ」に似ているため、毎回 S3 に書き込んだり S3 から読み取ったりすることなく、EC2 インスタンス間でデータを永続化できます。
私にとって最良のフォームは次のとおりです。
wget http://s3.amazonaws.com/my_bucket/my_folder/my_file.ext
からPuTTy