私は現在、疑似分散モードでHadoopに取り組んでいます。mapreduceを試して、jarとしてパッケージ化し、ファイルをhadoopにコピーしてから使用します。
./bin/hadoop jar *
それを開始します。
私の質問は次のとおりです:それを行う他の方法はありますか?実行するジョブが数千ある場合、コマンドを入力するだけでは不十分です。本番環境で何をしますか?
ありがとう。
私は現在、疑似分散モードでHadoopに取り組んでいます。mapreduceを試して、jarとしてパッケージ化し、ファイルをhadoopにコピーしてから使用します。
./bin/hadoop jar *
それを開始します。
私の質問は次のとおりです:それを行う他の方法はありますか?実行するジョブが数千ある場合、コマンドを入力するだけでは不十分です。本番環境で何をしますか?
ありがとう。
何千ものジョブがある場合、シェル スクリプトを作成し、ジョブ間に依存関係がない場合はそれらを送信します。依存関係がある場合は、Chris が述べたように Apache Oozie を使用してみてください。
自動化された方法でMapReduceジョブを起動することが可能です。たとえば、Javaプログラムでは、ジョブを起動できます。秘訣は、ジョブをjarファイルにエクスポートし、そのエクスポートされたjarファイルをJavaコード(別のもの)から呼び出すことです。私は最近同様の質問をしてそれを投稿しました、そしておそらくそれはあなたにも関係しています。
ジョブの実行をスケジュールする必要がある場合、または相互に依存するジョブのワークフローを設計する必要がある場合は、Apache OOZIE を調べてください。