バックグラウンド
私の雇用主は、リソース集約型の ETL とバックエンド処理ロジックを MySQL から Hadoop ( dfs & hive ) に徐々に移行しています。現時点では、すべてがやや小さく管理しやすい (10 ノードで 20 TB) ですが、段階的にクラスター サイズを増やす予定です。
現在、hadoop は本番環境での使用に移行しており、バッチ スケジューリングと、アドホックなユーザー ハイブ クエリ間でのクラスターの共有、1 時間ごとの M/R プロセスの大きな問題になりつつあり、最終的には hbase がある程度使用されると思います。懸念されるのは、ユーザーがナイーブなクエリを作成し、それが不当な時間 (たとえば 4 時間) にわたって実行される可能性があり、タスク キューが詰まり、インフラストラクチャの負荷が不安定になる可能性があることです。
質問
私の会社の別のセクションは既に Flume の未熟さによって焼き尽くされているので、私の質問は、2 つの既知のスケジューラー (Capacity と Fair) がどれくらい安定しているか、そしてスポンサー企業 (Yahoo と Facebook) での使用以外に他の場所で使用されているかということです。
編集:背景情報
http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/
http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html
http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html