を使用して単純な Map/Reduce タスクを試してみましたがAmazon Elastic MapReduce
、タスクを完了するのにわずか 3 分しかかかりませんでした。同じインスタンスを再利用して別のタスクを実行することは可能ですか?
インスタンスを 3 分間使用しただけですが、Amazon は に課金し1 hr
ます。残りの 57 分間を使用して、他のいくつかのタスクを実行したいと考えています。
を使用して単純な Map/Reduce タスクを試してみましたがAmazon Elastic MapReduce
、タスクを完了するのにわずか 3 分しかかかりませんでした。同じインスタンスを再利用して別のタスクを実行することは可能ですか?
インスタンスを 3 分間使用しただけですが、Amazon は に課金し1 hr
ます。残りの 57 分間を使用して、他のいくつかのタスクを実行したいと考えています。
答えはイエスです。
コマンドラインクライアントを使用して行う方法は次のとおりです。
インスタンスを作成して--aliveフラグを渡すと、ジョブの実行後もクラスターを維持するように emr に指示されます。
その後、追加のタスクをクラスターに送信できます。
elastic-mapreduce --jobflow <job-id> --stream --input <s3dir> --output <s3dir> --mapper <script1> --reducer <script2>
後でクラスターを終了するには、次のコマンドを実行します。
elastic-mapreduce <jobid> --terminate
elastic-mapreduce --help を実行して、実行できるすべてのコマンドを確認してください。
コマンド ライン クライアントをお持ちでない場合は、こちらから入手してください。
使用:
elastic-mapreduce --jobflow job-id \
--jar s3n://some-path/x.jar \
--step-name "New step name" \
--args ...
非ストリーミング ステップをクラスターに追加することもできます。(自分で試す必要がないように ;-) )
http://aws.amazon.com/elasticmapreduce/faqs/#dev-6
Q: 永続的なジョブフローを実行できますか? はい。–alive フラグで開始された Amazon Elastic MapReduce ジョブフローは、明示的に終了するまで続行されます。これにより、顧客は必要に応じてジョブ フローにステップを追加できます。これを使用して、ジョブ フローの開始を繰り返し待機することなく、ジョブ フロー ロジックをデバッグできます。永続的なジョブ フローを使用して、長時間実行されるデータ ウェアハウス クラスターを実行することもできます。これは、Hive や Pig などの Hadoop 上で実行されるデータ ウェアハウスおよび分析パッケージと組み合わせることができます。