HDInsight ジョブ アプローチに関するいくつかの質問。
1) HDInsight ジョブをスケジュールする方法は? それに対する準備ができている解決策はありますか?たとえば、私のシステムが、map/reduce ジョブを実行する必要がある多数の新しい入力ファイルを常に収集する場合、進行中の処理を実装するための推奨される方法は何ですか?
2) 価格の観点から、ジョブが実行されていない間は HDInsight クラスターを削除することをお勧めします。私が理解しているように、ジョブを毎日実行することにした場合、このプロセスを自動化する方法はありませんか? ここに何か推奨事項はありますか?
3) 同じファイルが複数回処理されないようにする方法はありますか? この問題をどのように解決しますか?
4) 私は間違っているかもしれませんが、すべての hdinsight ジョブには、リデューサーの結果を保存するための新しい出力ストレージ フォルダーが必要なようです。レポートが常にデータ セット全体で機能するように、これらの結果をマージするためのベスト プラクティスは何ですか?