CDH 4.1.2 (Cloudera) インストールで、毎日のローリング ログ データが HDFS にダンプされる設計上の問題があります。1 日あたりの成功率と失敗率を計算するためのレポートがいくつかあります。
私には2つのアプローチがあります
- 日次ログ データを Hive テーブルにロードし、複雑なクエリを作成します。
- 毎日事前に MapReduce ジョブを実行して要約 (基本的には数行) を生成し、Hive テーブルである共通ファイルに追加し続けます。後でレポートを実行しているときに、単純な選択クエリを使用して概要を取得できました。
どちらがより良いアプローチであるか、またはより良いアプローチがあるかどうかを理解しようとしています。
2 番目のアプローチでは、ファイルのマージに関して複雑さが増します。マージされていない場合、非常に小さなファイルがたくさんあるため、悪い考えと思われます。
ご意見をお待ちしております。
ありがとう