17

これら 2 つのオプションの違いを評価しようとしています。ここに私が考えることができるいくつかの長所と短所があります:

Elastic Map Reduce => Amazon からのより良いサポート、クラスターを管理する必要がない、より高価な (?) EC2 + Hadoop => Hadoop 構成のより多くの制御、より安価な (?)

誰かが EMR に対して EC2 + Hadoop のパフォーマンスをベンチマークしたのではないかと思いますか? 大規模なクラスター展開のコストに大きな違いはありますか? 他にどのような違いがありますか?

4

3 に答える 3

7

さて、クラスターの管理/監視/保守はそれ自体が小さな作業ではありません。EMRを実際に使用すると、カスタムブートストラップコードを使用してマシンを構成し、すぐに稼働させることができます。これらすべてのことを行う以外に、EMRは他の多くのツール/オプション/機能も提供します。

ここでは、ジョブの完了後にクラスターを終了することを心配する必要はありません。EC2+ Hadoopセットアップで確実に自分で方法を実装できますが、EMRはこれを適切な方法で行います。

また、ジョブの実行中でもクラスターサイズのサイズを変更する機能があります。

EMRで使用できるPigとHiveには、S3でのファイルの操作を容易にするパッチも含まれています。

この回答でも、EMRが優位に立っていることに気付くかもしれません

于 2013-03-02T20:10:38.307 に答える
7

私の仕事では両方のアプローチ (EMR と EC2) を使用しています。

Amar が言及した EMR の利点は多かれ少なかれ真実です。したがって、シンプルさが必要な場合は、EMR が最適です。

ただし、他にも考慮事項があります。

  • EMR のバージョンは、Apache ヘッドよりもはるかに遅れています。これは約 0.20.205 ですが、head は 2.X であり、基本的に 3 つのバージョン (1.0、1.1、2.0..) です。

hadoop@domU-12-31-39-07-B9-97:~$ ll hadoop*.jar lrwxrwxrwx 1 hadoop hadoop 73 Feb 5 12:00 hadoop-examples-0.20.205.jar -> /home/hadoop/.バージョン/0.20.205/share/hadoop/hadoop-examples-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-test-0.20.205.jar -> /home/hadoop/.versions/0.20. 205/share/hadoop/hadoop-test-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-core-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/ hadoop/hadoop-core-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 70 Feb 5 12:00 hadoop-tools-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop- tools-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 68 Feb 5 12:00 hadoop-ant-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-ant-0.20. 205.jar

  • 直接的な結果として、EMR で実行されている古いバージョンで contrib モジュールが欠落していたため、Map/reduce プログラムを再コーディング/再構築する必要がありました

  • M/R の更新されたバージョンを使用しているかのように、非 Map/Reduce アルゴリズムを使用する機会はあまりありません。

  • Hadoop エコシステムのバージョンを組み合わせて一致させる柔軟性。

于 2013-03-02T23:28:42.943 に答える