3

EMRを使用して新しいインスタンスを作成し、ジョブを処理してから、インスタンスをシャットダウンします。

私の要件は、定期的に仕事をスケジュールすることです。簡単な実装の1つは、クォーツを使用してEMRジョブをトリガーすることです。しかし、より長い実行を見ると、すぐに使用できるmapreduceスケジューリングソリューションを使用することに興味があります。私の質問は、EMRまたはAWS-SDKによって提供される、要件に使用できるすぐに使用できるスケジューリング機能はありますか?自動スケーリングにスケジューリングがあることがわかりますが、代わりにEMRジョブフローをスケジュールしたいと思います。

4

1 に答える 1

1

これを行うためのHadoop用のApacheOozieワークフロースケジューラがあります。

Oozieは、ApacheHadoopジョブを管理するためのワークフロースケジューラシステムです。

Oozieワークフロージョブは、アクションの有向非巡回グラフ(DAG)です。

Oozie Coordinatorジョブは、時間(頻度)とデータの可用性によってトリガーされる繰り返しのOozieワークフロージョブです。

Oozieは、Hadoopスタックの残りの部分と統合されており、すぐに使用できるいくつかのタイプのHadoopジョブ(Java map-reduce、Streaming map-reduce、Pig、Hive、Sqoop、Distcpなど)とシステム固有のジョブ( Javaプログラムとシェルスクリプト)。

Oozieは、スケーラブルで信頼性が高く、拡張可能なシステムです。

これは、apacheoozieを構成するためのElasticMap Reduceブートストラップアクションの簡単な例です:https ://github.com/lila/emr-oozie-sample

しかし、oozieは少し複雑であり、スケジュール/監視/保守するジョブがたくさんある場合にのみ、2つまたは3つと言った場合は、あなただけが行くoozieか、たくさんのジョブを作成する必要があります。cron定期的にスケジュールされるジョブ。

また、Amazonの簡単なワークフローを調べて調べることもできます。

于 2012-12-23T20:32:29.297 に答える