mapreduce と hadoop は初めてです。mapreduce の例と設計パターンを読みました...
わかりました、ポイントに来ます.私たちは、システムを監視し、5 秒ごとに定期的に CPU 使用率をキャプチャするソフトウェアを開発しています。また、過去 12 時間、先週などの CPU 使用率など、さまざまな期間のシステムの使用率グラフをプロットします。これには Oracle データベースを使用していました。そして現在、hadoop への移行を計画しています。
次のように mapreduce の設計について話し合い、提案しました。
2 つの mapreduce ジョブを実行する必要があります
最初の仕事:
すべてのシステムの永続化されたデータを収集し、それらをシステムの ID でグループ化 (削減) すると、次のように出力されます。
pc-1 : [ list of recorded cpu useges (in every 5 sec) ]
そして、これは次の仕事に渡されます
2番目のジョブ:
入力は次のとおりです: [システムの記録された CPU 使用量 (5 秒ごと) のリスト]
次に、このジョブはこのデータをグループ化し、次のような出力形式に減らします。
last 12 hrs : 20%(average)
last 24 hrs : 28%(average)
last week : 10%(average) ....
出来ますか。または私たちの考えが間違っている..助けてください...