hadoop - Hadoop タスクスケジューラ: キャパシティ vs フェアシェアリングか何か?

Question

バックグラウンド

私の雇用主は、リソース集約型の ETL とバックエンド処理ロジックを MySQL から Hadoop ( dfs & hive ) に徐々に移行しています。現時点では、すべてがやや小さく管理しやすい (10 ノードで 20 TB) ですが、段階的にクラスターサイズを増やす予定です。

現在、hadoop は本番環境での使用に移行しており、バッチスケジューリングと、アドホックなユーザーハイブクエリ間でのクラスターの共有、1 時間ごとの M/R プロセスの大きな問題になりつつあり、最終的には hbase がある程度使用されると思います。懸念されるのは、ユーザーがナイーブなクエリを作成し、それが不当な時間 (たとえば 4 時間) にわたって実行される可能性があり、タスクキューが詰まり、インフラストラクチャの負荷が不安定になる可能性があることです。

質問

私の会社の別のセクションは既に Flume の未熟さによって焼き尽くされているので、私の質問は、2 つの既知のスケジューラー (Capacity と Fair) がどれくらい安定しているか、そしてスポンサー企業 (Yahoo と Facebook) での使用以外に他の場所で使用されているかということです。

編集：背景情報

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html

score 3 · Accepted Answer

CDH は、デフォルトでフェアシェアスケジューラがオンになった状態で出荷されます。かなり安定しています。

hadoop - Hadoop タスク スケジューラ: キャパシティ vs フェア シェアリングか何か?

バックグラウンド

質問

編集：背景情報

1 に答える 1

Related

Reference

hadoop - Hadoop タスクスケジューラ: キャパシティ vs フェアシェアリングか何か?