mysql - 大規模な夜間/毎時 Hive/MySQL データ処理用の Spring-Batch

Question

夜間/毎時データの要約と大量のデータの統計収集を実行する一連の Python ETL スクリプトを置き換えることを検討しています。

私が達成したいことは

現在のスクリプトは次のことを行います。

多くのマシンからテキストログを収集し、Hadoop DFS にプッシュします。将来、このステップで Flume を使用する可能性があります ( http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/を参照)。
データに対してHiveサマリークエリを実行し、新しい Hive テーブル / パーティションに挿入 (上書き) します。
新しい集計データをファイルに抽出し、MySql テーブルにロード (マージ) します。これは、後でオンラインレポートに必要なデータです。
新しく追加された MySql データ (MySql テーブルから) に対して追加の結合を実行し、データを更新します。

私の考えは、スクリプトをスプリングバッチに置き換えることです。Scriptellaも調べましたが、この場合は「単純すぎる」と思います。

Spring-Batch (主に古い投稿) でいくつかの悪い雰囲気を見たので、ここでいくつかの情報を得たいと思っています。また、Spring-Batch と Hive の統合についてもあまり見たことがなく、面倒です。

score 3 · Accepted Answer

Hadoopエコシステム内にとどまりたい場合は、ワークフローを自動化するためにOozieをチェックすることを強くお勧めします。私たち（Cloudera）は、開始に使用できるOozieのパッケージバージョンを提供しています。詳細については、最近のブログ投稿を参照してください。

score 1 · Accepted Answer

JasperETLまたはTalendを使用してみませんか？その仕事に適したツールのようです。

score 1 · Accepted Answer

私は Cascading をかなり使用してきましたが、非常に印象的であることがわかりました。

M/R 抽象化レイヤーであり、Hadoop 上で動作します。

3 に答える 3