amazon-ec2 - Amazon Elastic MapReduce インスタンスを再利用する

Question

を使用して単純な Map/Reduce タスクを試してみましたがAmazon Elastic MapReduce、タスクを完了するのにわずか 3 分しかかかりませんでした。同じインスタンスを再利用して別のタスクを実行することは可能ですか?

インスタンスを 3 分間使用しただけですが、Amazon はに課金し1 hrます。残りの 57 分間を使用して、他のいくつかのタスクを実行したいと考えています。

score 14 · Accepted Answer

答えはイエスです。

コマンドラインクライアントを使用して行う方法は次のとおりです。

インスタンスを作成して--aliveフラグを渡すと、ジョブの実行後もクラスターを維持するように emr に指示されます。

その後、追加のタスクをクラスターに送信できます。

elastic-mapreduce --jobflow <job-id> --stream --input <s3dir> --output <s3dir> --mapper <script1> --reducer  <script2>

後でクラスターを終了するには、次のコマンドを実行します。

elastic-mapreduce <jobid> --terminate

elastic-mapreduce --help を実行して、実行できるすべてのコマンドを確認してください。

コマンドラインクライアントをお持ちでない場合は、こちらから入手してください。

score 2 · Accepted Answer

使用:

elastic-mapreduce --jobflow job-id \
    --jar s3n://some-path/x.jar \
    --step-name "New step name" \
    --args ...

非ストリーミングステップをクラスターに追加することもできます。(自分で試す必要がないように ;-) )

score 0 · Accepted Answer

http://aws.amazon.com/elasticmapreduce/faqs/#dev-6

Q: 永続的なジョブフローを実行できますか? はい。–alive フラグで開始された Amazon Elastic MapReduce ジョブフローは、明示的に終了するまで続行されます。これにより、顧客は必要に応じてジョブフローにステップを追加できます。これを使用して、ジョブフローの開始を繰り返し待機することなく、ジョブフローロジックをデバッグできます。永続的なジョブフローを使用して、長時間実行されるデータウェアハウスクラスターを実行することもできます。これは、Hive や Pig などの Hadoop 上で実行されるデータウェアハウスおよび分析パッケージと組み合わせることができます。

amazon-ec2 - Amazon Elastic MapReduce インスタンスを再利用する

3 に答える 3

Related

Reference