Amazon EMR を使用して試してみたい大規模なデータセット (25 GB 以上、インターネットでダウンロード可能) がいくつかあります。データセットを自分のコンピューターにダウンロードしてから Amazon に再アップロードする代わりに、データセットを Amazon に取得する最良の方法は何ですか?
EC2 インスタンスを起動し、インスタンス内から (wget を使用して) データセットを S3 にダウンロードし、EMR ジョブを実行するときに S3 にアクセスしますか? (これまで Amazon のクラウド インフラストラクチャを使用したことがないので、今言ったことに意味があるかどうかはわかりません。)