2

ビッグデータを分析するためのデシジョンツリーの実装に関するグーグルペーパーでは、フォワードスケジューリングマップリデュースジョブについて何か言及しています。

現在実行するジョブが2つある場合、最初のジョブを実行し、2番目のジョブのセットアップを開始すると彼らは言います。最初のジョブがいつ完了したかを確認するためのスレッドがあり、完了したら、入力を2番目のジョブにフィードして開始します。彼らが言及するアルゴリズムには反復的な仕事があるので、これは彼らに多くの時間を節約します。

これをHadoopでどのように実行できるのでしょうか。これが論文の引用です。フォワードスケジューリングは6.1項にあります

4

2 に答える 2

2

Oozieはあなたが探しているものです。テクノロジーが進むにつれて少し未熟ですが、あなたが説明するジョブフロー機能を処理できると思います。依存関係グラフを作成し、イベントの実行をトリガーできます。

于 2012-08-14T03:05:20.617 に答える
2

そのためにOozieを使用したくない場合は、Javaコードで直接これを行うことができます。

Hadoopで反復的なジョブを実現する方法について書きました。

http://codingwiththomas.blogspot.de/2011/04/controlling-hadoop-job-recursion.html

ただし、これはあまり効率的ではないことに注意してください。反復が多いアルゴリズムの場合は、ApacheHamaを使用することをお勧めします

于 2012-08-14T07:31:24.230 に答える