現在の使用distcp
は遅く、1 時間分のログをコピーするのに最大 4:16 分かかりますが、私が作成したカスタム関数は 16 秒しかかかりません。Amazons3distcp
がログに関する例を提供していることを考えると、これを試してパフォーマンスをテストすることにしました。
これが可能であることはわかってdistcp
いますs3distcp
が、ローカル マシンで大量のデータ (潜在的に 100 GB 以上) を EMR を使用せずにローカル マシン上の hfs クラスターにコピーすることは可能ですか?
Amazon およびその後のチュートリアルと記事でs3distcp
は、EMR のステップとしての能力のみを参照しています。